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Preface 


We are living in the Big Data era. Over 80% of real-world data are unstructured, 
in the form of natural language text, such as books, news reports, research articles, so- 
cial media messages, and webpages. Although data mining and machine learning have 
been popular in data analysis, most data mining methods handle only structured or 
semi-structured data. In comparison with mining structured data, mining unstructured 
text data is more challenging and will also play more essential role at turning massive 
data into structured knowledge. There is no wonder why we have witnessed the dra- 
matical upsurge of research on text mining and natural language processing and their 
applications in recent years. 


Text mining is a confluence of natural language processing, data mining, machine 
learning, and statistics for mining knowledge from unstructured text. There have already 
been multiple dedicated textbooks on data mining, machine learning, statistics, and 
natural language processing. However, we seriously lack textbooks on text mining that 
systematically introduce important topics and up-to-date methods on text mining. This 
book “Text Data Mining” bridges this gap nicely. It is the first textbook and also a 
brilliant one on text data mining, which not only introduces the foundational issues but 
also offers a comprehensive and state-of-the-art coverage of the important and on-going 
research themes on text mining. With an in-depth treatment of a wide-spectrum of text 
mining themes and a clear introduction to the state-of-the-art deep learning methods 
for text mining, it makes the book unique, timely, and authoritative. It is a great 
textbook for graduate students as well as a valuable handbook for practitioners working 
on text mining, natural language processing, data mining, machine learning and their 


applications. 


This book is written by three pioneering researchers and highly reputed experts in 
the fields of natural language processing and text mining. The first author has written 
an authoritative and popular textbook on natural language processing, adopted as a 
standard textbook for university undergraduate and the first-year graduate students in 
China. However, this new text mining book has a completely different coverage from 
his NLP textbook, and offers new and complementary text mining themes. Both books 
can be studied independently although I would strongly encourage students working on 


NLP and text mining to learn both. 
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In this text mining book, it starts with text preprocessing, including both English 
and Chinese text preprocessing, and proceeds to text representation, covering vector 
space model and distributed representation of words, phrases, sentences and documents, 
both in statistical modeling and deep learning models. It then introduces feature selec- 
tion methods, statistical learning methods and deep neural network methods, including 
multi-layer feed forward neural networks, convolutional neural networks and recurrent 
neural networks, for document classification. It then proceeds to text clustering, cover- 
ing sample and cluster similarities, various clustering methods and clustering evaluation. 
After introducing the fundamental theories and methods of text mining, the book uses 
five chapters to cover a wide spectrum of text mining applications, including topic model 
which is also treated as a fundamental issue from some viewpoint but can be used 
independently, sentiment analysis and opinion mining, theme detection and tracking, 
information extraction and automated document summarization. These themes are ac- 
tive research frontiers in text mining, and are covered comprehensively and thoroughly, 
with a good balance between classical methods and recent developments, including deep 
learning methods. 


As a data mining researcher, I have been recently deeply involved in text mining 
due to the need to handle the large scale of real-world data. I could not find a good 
text mining textbook to learn and teach no matter written in English or Chinese. It 
is exciting to see this book provides such a comprehensive and trendy introduction. I 
believe this book will benefit data science researchers, graduate students, as well as 
those who want to put text mining into practical applications. I love reading this book 
and recommend it highly to everyone who wants to learn text mining! 


‘en 


ACM Fellow and IEEE Fellow 
Abel Bliss Professor 
Department of Computer Science 


University of Illinois at Urbana-Champaign 
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我 们 生活 在 大 数据 时 代 , 现实 世界 中 80% 以 上 的 信息 是 以 自然 语言 文本 形式 (如 书 
籍 、 新 闻 报 道 、 研 究 论文 、 社 交 媒 体 和 网 页 等 ) 记载 的 非 结构 化 数据 。 尽 管 数据 挖掘 和 机 
器 学 习 已 经 成 为 数据 分 析 的 主要 手段 , 但 是 大 部 分 数据 挖 据 方法 只 能 处 理 结构 化 的 或 半 
结构 化 的 数据 。 与 结构 化 的 数据 挖掘 任务 相 比 较 , 非 结构 化 的 文本 挖掘 具有 更 大 的 挑战 
性 ， 而 且 这 项 技术 能 够 在 将 海量 数据 转化 为 结构 化 知识 的 过 程 中 发 挥 巨大 的 作用 。 毫 无 
疑问 ,我 们 已 经 欣喜 地 看 到 , 近年 来 文本 挖掘 和 自然 语言 处 理 技术 研究 迅速 崛起 ， 并 得 
到 了 广泛 应 用 。 

文本 挖掘 是 一 门 综合 性 的 技术 , 涉及 自然 语言 处 理 、 数 据 挖 据 、 机 器 学 习 和 从 非 结 
构 化 文本 中 挖掘 知识 的 统计 学 方法 等 。 目 前 已 经 有 不 少 关 于 数据 挖掘 、 机 器 学 习 和 统计 
自然 语言 处 理 的 专车 和 教材 ,但 是 ， 尚 没有 一 部 系统 介绍 文本 挖掘 重要 主题 和 最 新 方法 
的 学 术 专著 ,这 本 《文本 数据 挖掘 》 很 好 地 填补 了 这 一 空缺 。 这 是 第 一 部 , 也 是 非常 优秀 
的 一 部 文本 数据 挖掘 的 教科 书 ， 它 不 仅 介绍 了 文本 挖掘 的 基础 性 问题 ， 而 且 较 为 全 面 地 
阐述 了 当前 文本 挖掘 研究 的 重要 课题 和 最 新 方法 。 该 书 通过 对 大 范围 文本 挖掘 主题 的 深 
入 分 析 和 当前 最 前 沿 的 深度 学 习 方法 的 清晰 介绍 ,使 其 成 为 一 部 及 时 、 权 威 和 特色 鲜明 
的 力作 。 这 是 一 部 研究 生 的 优秀 教材 ， 也 是 从 事 文本 挖 据 、 自 然 语 言 处 理 、 数 据 挖掘 、 机 
器 学 习 及 其 应 用 技术 研究 和 开发 的 专业 人 员 的 宝贵 手册 。 

本 书 由 三 位 自然 语言 处 理 和 文本 挖掘 领域 具有 较 高 声誉 的 学 者 完成 。 第 一 作者 已 
经 撰写 和 出 版 了 一 部 广 受 欢 迎 的 《统计 自然 语言 处 理 》 权 威 教材 ,被 中 国 大 陆 的 很 多 大 
学 用 作 高 年 级 本 科 生 和 一 年 级 研究 生 的 教科 书 。 本 书 与 《统计 自然 语言 处 理 》 的 落 盖 范 
围 完全 不 同 ， 它 所 呈现 的 是 关于 文本 挖掘 的 新 主题 ,是 对 已 有 著作 的 扩展 和 补充 。 这 
两 本 书 可 以 分 别 单独 学 习 ,但 我 强烈 地 建议 从 事 自 然 语 言 处 理 和 文本 挖掘 的 学 生 能 够 

本 书 从 文本 预 处 理 (包括 英文 的 和 中 文 的 文本 预 处 理 ) 方法 介绍 开始 ,随后 给 出 文 
本 表示 方法 , 包括 向 量 空间 模型 和 词汇 、 短语 、 句子 及 文档 的 分 布 式 表示 , 都 从 统计 建 
模 和 深度 学 习 建 模 两 个 角度 进行 了 阐述 。 之 后 针对 文本 分 类 问题 介绍 了 特征 选择 方法 、 
统计 学 习 方 法 和 深度 神经 网 络 方法 ,后 者 又 包括 多 层 前 馈 神 经 网 络 、 卷 积 神经 网 络 和 循 
环 神 经 网 络 。 接 下 来 是 文本 聚 类 , 包括 简单 的 类 别 相似 性 度量 和 各 种 聚 类 算法 以 及 性 能 
评价 方法 。 在 对 上 述 文本 挖掘 基础 理论 和 方法 进行 介绍 之 后 , 本 书 用 5 章 介 绍 了 文本 挖 
掘 技术 的 具体 应 用 , 包括 主题 模型 (从 菜 种 角度 讲 它 也 是 一 种 基础 模型 , 但 可 以 独立 使 
FD. 情感 分 析 和 观点 挖 气 、 主 题 发 现 与 跟踪 、 信息 抽取 及 自动 文摘 。 这 些 都 是 目前 文本 
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挖掘 领域 活跃 的 前 沿 研究 课题 ， 本 书 不 但 给 予 了 全 面 而 透彻 的 介绍 ,而 且 在 传统 方法 和 
最 新 进展 〈 包 括 深度 学 习 方 法 ) 之 间 进 行 了 很 好 的 平衡 。 

近年 来 由 于 处 理 大 规模 真实 数据 的 需要 , 我 作为 一 名 数据 挖掘 技术 的 研究 者 ， 已 经 
全 身心 地 投入 到 了 该 技术 的 研究 中 。 我 很 难 找到 一 本 很 好 的 既 可 以 自学 , 又 可 以 用 于 教 
学 的 文本 数据 挖 据 教 科 书 , 不 管 是 中 文 的 还 是 英文 的 。 我 相信 这 本 书 将 使 从 事 数据 科学 
研究 的 专家 、 研究生 和 那些 有 意 将 文本 数据 挖 据 技术 融入 实际 应 用 的 人 们 大 获 神 益 。 我 
喜欢 这 本 书 , 并 且 很 愿意 将 其 推荐 给 所 有 愿意 学 习 文 本 挖掘 技术 的 读者 ! 


韩 家 炜 
ACM Fellow, IEEE Fellow 
伊利 诺 伊 大 学 厄 巴 纳 -香槟 分 校 计算 机 科学 系 阿 贝尔 。 布 利 斯 特聘 教授 


了 趾 
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随 着 互联 网 和 移动 通信 技术 的 快速 发 展 和 普及 应 用 , 文本 数据 挖掘 技术 备 受 关 注 ， 
尤其 随 着 云 计 算 、 大 数据 和 深度 学 习 等 一 系列 新 技术 的 广泛 使 用 , 文本 挖掘 技术 已 经 在 
众多 领域 (如 舆情 分 析 、 医 疗 和 金融 数据 分 析 等 ) 发 挥 了 重要 作用 , 表现 出 广阔 的 应 用 
前 景 。 

虽然 十 多 年 前 我 就 指导 博士 生 开展 文本 分 类 和 自动 文摘 等 相关 技术 的 研究 , 但 对 
文本 数据 挖掘 的 整体 概念 并 没有 一 个 清晰 的 认识 ， 只 是 将 研究 的 单项 技术 视 为 自然 语 
言 处 理 的 具体 应 用 。 韩 家 炜 教授 主笔 的 《数据 挖掘 一 一 概念 与 技术 》 和 刘 兵 教授 撰写 
的 “Web Data Mining ”等 专著 曾 让 我 大 获 神 益 , 每 次 聆听 他 们 的 学 术 报告 和 与 他 们 当面 
交谈 也 都 受益 菲 浅 。 促 使 我 萌生 撰写 这 部 专著 念头 的 是 中 国 科 学 院 大 学 让 我 开设 的 “ 文 
本 数据 挖掘 ” 课程。2015 年 底 我 接受 中 国 科学 院 大 学 计算 机 与 控制 学 院 的 邀请 ,开始 准 
备 “ 文 本 数据 挖掘 ”课程 的 内 容 设计 和 课件 编写 工作 , 我 不 得 不 静 下 心 来 查阅 大 量 的 文 
献 资料 ， 认 真 思考 这 一 术语 所 列 藏 的 丰富 内 涵 和 外 延 , 经 过 几 年 的 学 习 、 思 考 和 教学 实 
践 ,文本 数据 挖掘 的 概念 轮廓 渐渐 清晰 起 来 。 

夏 穿 和 张 家 俊 两 位 青年 才 俊 的 加 盟 让 我 萌生 的 写作 计划 得 以 实现 。 夏 穿 于 2007 年 
硕士 毕业 ， 以 优异 成 绩 考 入 中 科 院 自动 化 所 跟随 我 攻读 博士 学 位 ， 从 事情 感 文本 分 析 研 
究 , 在 情感 分 析 和 观点 挖掘 领域 以 第 一 作者 身份 在 国际 一 流 学 术 期 刊 和 会 议 上 发 表 了 一 
系列 有 影响 力 的 论文 ,其 中 两 篇 论文 入 选 ESI 高 被 引 论文 , 攻读 博士 学 位 期 间 完 成 的 关 
于 情感 分 类 特征 发 现 与 集成 学 习 的 论文 被 引 400 余 次 。 此 外 , 他 在 文本 分 类 与 聚 类 、 主 
题 模型 、 话 题 检测 与 跟踪 等 多 个 领域 都 颇 有 见地 。 张 家 俊 于 2006 年 本 科 毕 业 后 被 免试 推 
荐 到 中 科 院 自动 化 所 跟随 我 攻读 博士 学 位 , 主要 从 事 机 器 翻译 研究 , 之 后 在 多 语言 自动 
摘要 、 信息 获取 和 人 机 对 话 等 多 个 研究 方向 都 有 出 色 的 表现 。 自 2016 年 起 他 同 我 一 道 在 
中 国 科 学 院 大 学 讲授 “自然 语言 处 理 ” 课程 的 机 器 翻译 、 自 动 文摘 和 文本 分 类 等 部 分 内 
X, 颇 受 学 生 的 欢迎 。 仰 仗 两 位 弟子 扎实 的 理论 功底 和 敏锐 的 科研 悟性 , 很 多 最 新 的 技 
术 方 法 和 研究 成 果 能 够 得 到 及 时 的 验证 和 实践 , 并 被 收入 本 书 , 使 我 倍 感 欣慰 。 

自 2016 年 初 动笔 , 到 此 时 收 官 , 全 书 耗 时 两 年 多 ,当然 大 部 分 写作 都 是 在 节假日 、 
周末 和 其 他 本 该 休息 的 时 间 里 完成 的 , 其 间 进 行 了 无 数 次 的 修改 、 补 充 和 调整 ,所 花费 
的 时 间 和 精力 及 其 感受 到 的 快乐 和 烦恼 难以 言 表 , 正 所 谓 “ 痛 并 快乐 着 ”。 在 写作 过 程 中 
和 初稿 完成 之 后 , 得 到 了 很 多 同行 专家 的 大 力 支持 和 帮助 ,他们 是 (以 姓氏 拼音 顺序 排 
列 ): 韩 先 培 、 洪 宇 、 李 寿山 、 刘 康 、 万 小 军 、 徐 康 、 章 成 志 、 赵 侈 、 周 玉 。 他 们 分 别 审阅 
了 部 分 章节 的 内 容 , 提出 了 宝贵 的 修改 意见 和 建议 。 另 外， 部 分 研究 生 和 博士 生 也 为 本 
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书 的 写作 提供 了 力所能及 的 帮助 , 他们 是 : th. BGAN. THR. 何 烩 烩 、 金 晓 、 李 俊 
杰 、 马 聪 、 王 乐 义 、 向 露 、 郑 士 梁 、 朱 军 楠 。 他 们 帮助 作者 收集 整理 了 部 分 文献 资料 , 绘 
制 了 书 中 的 部 分 图 表 , 为 作者 节省 了 宝贵 的 时 间 。 在 此 一 并 向 他 们 表示 衷心 的 感谢 ! 
由 衷 地 感谢 韩 家 炜 教授 对 本 书 提出 的 指导 性 意见 和 建议 ! 他 能 够 在 百 忙 之 中 为 本 书 
PUF, 是 我 们 的 荣幸 , 不 胜 感激 ! 

本 书 的 撰写 工作 得 到 了 中 国 科 学 院 大 学 教材 出 版 中 心 的 资助 和 国家 自然 科学 基金 重 
点 项 目的 资助 (项 目 编号 : 61333018). 

另外 , 不 得 不 说 的 是 ,由 于 作者 的 水 平和 能 力 所 限 , 加 之 时 间 和 精力 的 不 足 , 书 中 一 
定 存在 下 漏 或 错误 ， 衷 心地 欢迎 读者 给 予 批评 指正 ! 


宗 成 庆 
2018 年 国庆 节 期 间 
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数据 挖掘 (data mining) 技术 近年 来 备 受 关注 , 在 快速 发 展 的 大 数据 时 代 展 现 了 
极其 重要 和 广泛 的 应 用 前 景 。 根据 文献 [Han et al., 2012] 给 出 的 广义 解释 ， 数据 挖 
掘 是 指 从 大 量 数据 中 挖掘 有 趣 模式 和 知识 的 过 程 。 其 中 ,数据 源 包 括 数据 库 、 数 据 仓 
库 、Web、 其 他 信息 存储 库 或 动态 地 流入 系统 的 数据 。 由 于 这 项 技术 最 早起 源 于 从 数 
据 库 中 发 现 和 提炼 有 用 的 知识 , 因此 这 一 术语 的 英文 通常 写作 knowledge discovery in 
database (KDD) 。 

本 书 介绍 从 自然 语言 文本 中 挖掘 用 户 所 感 兴趣 的 模式 和 知识 的 方法 和 技术 ,这 项 
技术 我 们 称 之 为 文本 数据 挖 据 (text data mining)， 有 时 候 也 简称 为 文本 挖掘 (text 
mining)。 这 里 所 说 的 文本 包括 普通 TXT 文件 、doc/docx 文件 、 PDF 文件 和 HTML X 
件 等 各 类 以 语言 文字 为 主要 内 容 的 数据 文件 。 


1.1 基本 概念 


与 广义 的 数据 挖掘 技术 相 比较 ， 除 了 解析 各 类 文件 (如 doc/docx 文件 、PDF 文件 
和 HTML 文件 等 ) 的 结构 所 用 到 的 专门 技术 以 外 , 文本 数据 挖掘 的 最 大 挑战 在 于 对 非 结 
构 化 自然 语言 文本 内 容 的 分 析 和 理解 。 这 里 需要 强调 两 个 方面 : 一 是 文本 内 容 几 乎 都 是 
非 结构 化 的 , 而 不 像 数 据 库 和 数据 仓库 ,都 是 结构 化 的 ; 二 是 文本 内 容 是 由 自然 语言 描 
述 的 , 而 不 是 纯 用 数据 描述 的 , 通常 也 不 考虑 图 形 和 图 像 等 其 他 非 文字 形式 。 当 然 , 文档 
中 含有 图 表 和 数据 也 是 正常 的 , 但 文档 的 主体 内 容 是 文本 。 因 此 , 文本 数据 挖掘 是 自然 
语言 处 理 (natural language processing, NLP) 、 模 式 分 类 (pattern classification) 和 机 
器 学 习 (machine learning, ML) 等 相关 技术 密切 结合 的 一 项 综合 性 技术 。 

所 谓 的 挖掘 通常 带 有 “发 现 、 寻 找 、 归 纳 、 提 炼 ” 的 含义 。 既 然 需要 去 发 现 和 提炼 ， 
那么 ,所 要 寻找 的 内 容 往往 都 不 是 显而易见 的 ,而 是 隐蔽 和 藏匿 在 文本 之 中 的 ， 或 者 
是 人 无 法 在 大 范围 内 发 现 和 归纳 出 来 的 。 这 里 所 说 的 “隐蔽 ”和 “藏匿 ”既是 对 计算 
机 系统 而 言 ， 也 是 对 用 户 而 言 。 但 无 论 哪 一 种 情况 ， 从 用 户 的 角度 ,肯定 都 希望 系统 
能 够 直接 给 出 所 关注 的 问题 的 答案 和 结论 ， 而 不 是 像 传统 的 检索 系统 一 样 ， 针 对 用 户 
输入 的 关键 词 送出 无 数 多 可 能 的 搜索 结果 ， 让 用 户 自 己 从 中 分 析 和 寻找 所 要 的 答案 。 
粗略 地 讲 ， 文 本 挖掘 类 型 可 以 归纳 成 两 种 ,一 种 是 用 户 的 问题 非常 明确 、 具 体 ， 只 是 
不 知道 问题 的 答案 是 什么 ,如 用 户 希 望 从 大 量 的 文本 中 发 现 某 人 与 哪些 组 织 机 构 存 在 
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什么 样 的 关系 。 另 一 种 情况 是 用 户 只 是 知道 大 概 的 目的 , 但 并 没有 非常 具体 、 明 确 的 
问题 ,如 医务 人 员 希 望 从 大 量 的 病例 记录 中 发 现 某 些 疾病 发 病 的 规律 和 与 之 相关 的 因 
Ko 在 这 种 情况 下 ,可 能 并 非 指 某 一 种 疾病 ,也 不 知道 哪些 因素 , 完全 需要 系统 自动 地 
从 病例 记录 中 发 现 、 归 纳 和 提炼 出 相关 的 信息 。 当 然 , 这 两 种 类 型 有 时 并 没有 明显 的 
界限 。 

文本 挖掘 技术 在 国民 经 济 、 社 会 管理 、 信 息 服 务 和 国家 安全 等 各 个 领域 中 都 有 非常 
重要 的 应 用 ， 市 场 需求 巨大 , 如 对 于 政府 管理 部 门 来 说 ,可 以 通过 分 析 和 挖掘 普通 民众 
的 微 博 、 微 信 、 短信 等 网 络 信息 ， 及 时 准确 地 了 解 民意 、 把 握 与 情 ; 在 金融 或 商贸 领域 通 
过 对 大 量 的 新 闻 报 道 、 财 务 报告 和 网 络 评论 等 文字 材料 的 深入 挖掘 和 分 析 ， 预 测 某 一 时 
间 段 的 经 济 形势 和 股市 走向 ; 电子 产品 企业 可 随时 了 解 和 分 析 用 户 对 其 产品 的 评价 及 市 
场 反 应 , 为 进一步 改进 产品 质量 、 提 供 个 性 化 服务 等 提供 数据 支持 ; 而 对 于 国家 安全 和 
公共 安全 部 门 来 说 , 文本 数据 挖掘 技术 则 是 及 时 发 现 社会 不 稳定 因素 、 有 效 掌控 时 局 的 
有 利 工具 ; 在 医疗 卫生 和 公共 健康 领域 可 以 通过 分 析 大 量 的 化 验 报告 、 病 例 、 记 录 和 相 
关 文献 、 资 料 等 ,发 现 某 种 现象 、 规 律 和 结论 等 等 。 

文本 挖 据 作为 多 项 技术 的 交叉 研究 领域 起 源 于 文本 分 类 (text classification) 、 文 
ARE (text clustering) 和 文本 自动 摘要 (automatic text summarization) 等 单项 技 
术 。 大 约 在 20 世纪 50 年 代 文本 分 类 和 聚 类 作为 模式 识别 的 应 用 技术 轩 露 头角 ， 当 时 
主要 是 面向 图 书 情报 分 类 等 需求 开展 研究 。 当 然 , 分 类 和 聚 类 都 是 基于 文本 主题 和 内 
容 进行 的 。1958 年 H.P. Luhn 提出 了 自动 文摘 的 思想 [Luhn, 1958]， 为 文本 挖掘 领域 
增添 了 新 的 内 容 。20 世纪 80 年 代 末 期 和 90 年 代 初期 ， 随 着 互联 网 技术 的 快速 发 展 
和 普及 , 新 的 应 用 需求 推动 这 一 领域 不 断 发 展 和 壮大 。 美国 政府 资助 了 一 系列 有 关 信 
息 抽取 (information extraction, IE) 技术 的 研究 项 目 ，1987 年 美国 国防 高 级 研究 计划 
局 (DARPA) 为 了 评估 这 项 技术 的 性 能 , 发 起 组 织 了 第 一 届 消 息 理解 会 议 (Message 
Understanding Conference, MUC!) 。 在 随后 的 10 年 间 连 续 组 织 的 7 次 评测 使 信息 抽取 
技术 迅速 成 为 这 一 领域 的 研究 热点 。 之 后 , 文本 情感 分 析 (text sentiment analysis) 与 观 
点 挖掘 (opinion mining)、 话 题 检测 与 跟踪 (topic detection and tracking) 等 一 系列 面 
向 社交 媒体 的 文本 处 理 技术 相继 产生 ,并 得 到 快速 发 展 ,。 今天, 这 一 技术 领域 不 仅 在 理 
论 方法 上 快速 成 长 , 在 系统 集成 和 应 用 形式 上 也 不 断 推陈出新 。 


1.2 ”文本 挖掘 任务 


正如 前 面 所 述 , 文本 挖掘 是 一 个 多 项 技术 交叉 的 研究 领域 , 涉及 内 容 比较 宽泛 。 在 
实际 应 用 中 通常 需要 几 种 相关 技术 结合 起 来 完成 某 个 应 用 任务 ， 而 挖掘 技术 的 执行 过 程 
通常 隐藏 在 应 用 系统 的 背后 。 例如 , 一 个 问答 系统 (question and answering, Q&A) 通 
常 需要 问 句 解析 、 知识 库 搜索 、 候选 答 案 推 断 和 过 滤 、 答案 生成 等 几 个 环节 , 而 在 知识 库 
构建 的 过 程 中 离 不 开 文 本 聚 类 、 分类、 命名 实体 识别 (named entity recognition, NER). 


‘http://www-nlpir.nist.gov /related_projects/muc/ 
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关系 抽取 和 消 歧 等 关键 技术 。 因 此 , 文本 挖掘 通常 不 是 一 个 单项 技术 构成 的 系统 ， 而 是 
若干 技术 的 集成 应 用 。 以 下 对 几 种 典型 的 文本 挖掘 技术 做 简要 的 介绍 。 

(1) 文本 分 类 

文本 分 类 是 模式 分 类 技术 的 一 个 具体 应 用 ,其 任务 是 将 给 定 的 文本 划分 到 事先 规定 
的 文本 类 型 。 例如, 根据 中 国 图 书馆 分 类 法 (第 五 版 ) 1, 所 有 图 书 按 其 学 科 内 容 被 划分 
成 五 大 类 : 马列 主义 、 毛 泽 东 思想 , 哲学 , 社会 科学 ,自然 科学 和 综合 性 图 书 ,并 细 分 成 
22 个 基本 大 类 。“ 新 浪 网 ”? 首 页 划分 的 内 容 类 别 包括 : 新 闻 、 财 经 、 体育、 娱乐 、 汽车、 
博客 、 视 频 、 房 产 等 。 如 何 根据 一 部 图 书 或 者 一 篇 文章 的 内 容 自动 将 其 划 归 为 某 一 种 类 
别 , 是 一 项 具有 挑战 性 的 任务 。 

本 书 第 4 章 详细 介绍 文本 分 类 技术 。 

(2) 文本 聚 类 

文本 聚 类 的 目的 是 将 给 定 的 文本 集合 划分 成 不 同 的 类 别 。 通常 情况 下 从 不 同 的 角度 
可 以 聚 类 出 不 同 的 结果 ， 如 根据 文本 内 容 可 以 将 其 聚 类 成 新 闻 类 、 文 化 娱乐 类 、 体 育 类 
或 财经 类 等 ,而 根据 作者 的 倾向 性 可 以 将 其 聚 成 襄 义 类 ( 持 积 极 、 支 持 态度 的 正面 观点 ) 
和 贬义 类 ( 持 消极 、 和 否定 态度 的 负面 观点 ) 等 。 

文本 聚 类 和 文本 分 类 的 根本 区 别 在 于 : 分 类 事先 知道 有 多 少 个 类 别 ， 分 类 的 过 程 就 
是 将 每 一 个 给 定 的 文本 自动 划 归 为 某 个 确定 的 类 别 , 打上 类 别 标签 。 而 聚 类 则 事先 不 知 
道 有 多 少 个 类 别 , 需要 根据 某 种 标准 和 评价 指标 将 给 定 的 文档 集合 划分 成 相互 之 间 能 够 
区 分 的 类 别 。 但 两 者 又 有 很 多 相似 之 处 , 所 采用 的 算法 和 模型 有 较 大 的 交集 ， 如 文本 表 
示 模 型 、 距 离 函 数 、K-means (K- 均 值 ) 算法 等 。 

本 书 第 5 章 详细 介绍 文本 聚 类 技术 。 

(3) 主题 模型 

通常 情况 下 每 一 篇 文章 都 有 一 个 主题 和 几 个 子 主题 , 而 主题 可 以 用 一 组 词汇 表示 ， 
这 些 词汇 之 间 有 较 强 的 相关 性 ， 且 其 概念 和 语义 基本 一 致 。 我 们 可 以 认为 每 一 个 词汇 都 
通过 一 定 的 概率 与 某 个 主题 相关 联 。 反 过 来 , 也 可 以 认为 某 个 主题 以 一 定 的 概率 选择 某 
个 词汇 。 因此, 我 们 可 以 给 出 如 下 简单 的 式 子 : 


了 了 ( 词 :| 文档 ;) = 》)P( 词 :| 主题 :) x p (主题 :| 文档 ;) 


由 此 , 可 以 计算 出 文档 中 每 个 词汇 出 现 的 概率 。 

为 了 从 文本 中 挖掘 隐藏 在 词汇 背后 的 主题 和 概念 ， 人们 提出 了 一 系列 统计 模型 ， 称 
为 主题 模型 (topic model) 。 

本 书 第 6 章 详细 介绍 主题 模型 。 

(A) 情感 分 析 与 观点 挖掘 

所 谓 的 文本 情感 是 指 文 本 作者 所 表达 的 主观 信息 ,， 即 作者 的 观点 和 态度 。 因 此 , 文 
本 情感 分 析 (text sentiment analysis) 又 称 文本 倾向 性 分 析 或 文本 观点 挖掘 Copinion 


1https://baike.baidu.com/item/ 中 国 图 书馆 图 书 分 类 法 /1919634?fr=aladdin 


2https://www.sina.com.cn/ 
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mining), 其 主要 任务 包括 情感 分 类 (sentiment classification) 和 属性 抽取 等 。 情感 分 类 
可 以 看 作 是 文本 分 类 的 一 种 特殊 类 型 , 它 是 指 根据 文本 所 表达 的 观点 和 态度 等 主观 信 
息 对 文本 进行 分 类 , 或 者 判断 某 些 (篇 ) 文本 的 误 贬 极 性 。 例如， 某 一 特殊 事件 发 生 之 
后 (如 马 航 MH370 飞机 失 联 、 联 合 国 主席 潘 基文 参加 中 国 纪念 反 法 西 斯 战争 胜利 和 抗 
日 战争 胜利 70 周年 阅兵 活动 、 韩 朝 领导 人 对 话 等 ), 互联 网 上 有 大 量 的 新 闻 报 道 和 用 户 
评论 ， 如何 从 这 些 新 闻 和 评论 中 自动 了 解 各 种 不 同 的 观点 (倾向 性 ) 呢 ? 某 公司 发 布 一 
款 新 的 产品 之 后 ,商家 希望 从 众多 用 户 的 网 络 评论 中 及 时 地 了 解 用户 的 评价 意见 (倾向 
性 )、 用 户 年 龄 区 间 、 性别 比例 和 地 域 分 布 等 ,以 帮助 公司 对 下 一 步 决策 做 出 判断 。 这些 
都 属于 文本 情感 分 析 所 要 完成 的 任务 。 

本 书 第 7 章 介 绍 文本 情感 分 析 和 观点 挖掘 技术 。 

(5) 话题 检测 与 跟踪 

话题 检测 通常 指 从 众多 新 闻 事 件 报道 和 评论 中 挖掘 、 筛 选 出 文本 的 话题 ， 而 多 数 人 
关心 、 关 注 和 追踪 的 话题 称 为 “热点 话题 ”。 热 点 话题 发 现 Chot topic discovery)、 检 测 
和 跟踪 是 与 情 分 析 、 社 会 媒体 计算 和 个 性 化 信息 服务 中 一 项 重要 的 技术 ,其 应 用 形式 多 
种 多 样 。 例 如 “今日 热点 话题 ”是 从 当日 所 有 的 新 闻 事 件 中 筛选 出 最 吸引 读者 眼球 的 报 
道 ,“2018 热门 话题 ” 则 是 从 2018 年 全 年 (也 可 能 是 自 2018 年 1 月 1 日 起 到 当时 某 一 
时 刻 ) 的 所 有 新 闻 事件 中 挑选 出 最 受 关注 的 前 几 条 新 闻 。 

本 书 第 8 童 介绍 话题 检测 与 跟踪 技术 。 

(6) 信息 抽取 

信息 抽取 是 指 从 非 结 构 化 、 半 结构 化 的 自然 语言 文本 (如 网 页 新 闻 、 学 术 文 献 、 社 交 
媒体 等 ) 中 抽取 实体 、 实 体 属性 、 实 体 间 的 关系 以 及 事件 等 事实 信息 , 并 形成 结构 化 数 
据 和 输出 的 一 种 文本 数据 挖掘 技术 [Sarawagi, 2008]。 典 型 的 信息 抽取 任务 包括 命名 实体 识 
别 、 实 体 消 歧 、 关 系 抽取 和 事件 抽取 。 

近年 来 , 生物 医学 文本 挖掘 (biomedical/medical text mining) 技术 备 受 关注 。 生物 
医学 文本 挖 据 指 的 是 专门 针对 生物 和 医学 领域 的 文本 进行 的 分 析 、 发现 和 抽取 。 例如， 
从 大 量 的 生物 医学 文献 中 研究 发 现 某 种 疾病 与 哪些 化 学 物质 (药物 ) 存在 关系 , 或 从 大 
量 医 生 记录 的 病例 中 分 析 、 发现 某 些 疾病 的 诱因 或 某 种 疾病 与 其 他 疾病 之 间 的 关系 等 。 
与 其 他 领域 的 文本 挖掘 相 比 ， 生物 医学 领域 的 文本 挖掘 面临 很 多 特殊 问题 ， 如 文本 中 存 
在 大 量 的 专用 术语 和 医学 名 词 ， 甚 至 还 有 习惯 用 语 ,例如 临床 上 使 用 的 一 些 行 话 或 者 实 
验 室 命名 的 一 些 蛋 白质 名 称 等 。 另 外 , 不 同 来 源 的 文本 格式 差异 很 大 ,如 病历 、 化 验 单 、 
研究 论文 、 公 共 健 康 指 南 或 手册 等 有 很 大 的 区 别 。 还 有 , 如何 表示 和 利用 生物 医学 领域 
的 常识 , 如 何 获取 大 规模 标注 语 料 等 , 这 些 都 是 该 领域 面临 的 特殊 问题 。 

另外 ,金融 领域 的 文本 挖掘 技术 也 是 近年 来 研究 的 一 大 热点 。 如 从 普通 用 户 或 监管 
部 门 的 角度 通过 可 获取 的 财务 报告 、 公 开 报道 、 社 交 网 络 的 用 户 评论 等 信息 分 析 某 家 金 
融 企业 的 运营 状况 和 社会 声誉 ， 从 企业 的 角度 通过 分 析 内 部 各 类 报告 预警 可 能 存在 的 风 
险 , 或 者 通过 分 析 客 户 数据 把 控 信贷 风险 等 。 

需要 说 明 的 是 , 信息 抽取 中 的 关系 通常 是 指 两 个 或 多 个 概念 之 间 存 在 的 某 种 语义 联 
Ry 关系 抽取 就 是 自动 发 现 和 挖掘 概念 之 间 的 语义 关系 。 事 件 抽取 通常 是 针对 特定 领域 
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的 “事件 ”对 构成 事件 的 元 素 进行 抽取 。 这 里 所 说 的 “事件 ”与 日 常人 们 所 说 的 事件 有 所 
不 同 。 日 常人 们 所 说 的 事件 与 一 般 人 的 理解 是 一 致 的 , 是 指 在 什么 时 间 、 地 点 、 发 生 了 什 
么 事情 , 所 发 生 的 事情 往往 是 一 个 完整 的 故事 , 包括 起 因 、 过 程 和 结果 等 很 多 详细 的 描 
述 , 而 事件 抽取 中 的 “事件 ”往往 指 由 某 个 谓词 框架 表达 的 一 个 具体 行为 或 状态 。 如 “ 特 
朗 普 会 见 安倍 晋三 首相 ”是 一 个 由 谓词 “会 见 ” 触 发 的 事件 。 如 果 说 一 般 人 所 理解 的 事件 
是 一 个 故事 的 话 , 那么 , 事件 抽取 中 的 “事件 ”只 是 一 个 动作 或 状态 。 

本 书 第 9 章 介 绍 信息 抽取 技术 。 

(7) 文本 自动 摘要 

文本 自动 摘要 或 简称 自动 文摘 (automatic summarization) 是 指 利用 自然 语言 处 理 
方法 自动 生成 摘要 的 一 种 技术 。 在 信息 过 度 饱 和 的 今天 ,自动 文摘 技术 具有 非常 重要 的 
用 途 。 例如 , 信息 服务 部 门 需要 对 大 量 的 新 闻 报 道 进行 自动 分 类 , 然后 形成 某 些 (个 ) 事件 
报道 的 摘要 ， 推 送 给 可 能 感 兴趣 的 用 户 ， 或 者 某 些 公司 、 政 府 与 情 监控 部 门 想 大 致 了 解 某 
些 用 户 群体 所 发 布 言论 (短信 、 微 博 、 微 信 等 ) 的 主要 内 容 ,自动 摘要 技术 就 派 上 了 用 场 。 

本 书 第 10 章 介绍 文本 自动 摘要 技术 。 


1.3 ”文本 挖掘 面临 的 困难 


开展 文本 挖掘 技术 研究 是 一 项 极 具 挑 战 性 的 工作 , 一 方面 ,自然 语言 处 理 的 理论 体 
系 尚未 完全 建立 ， 目 前 对 文本 的 分 析 在 很 大 程度 上 仅仅 处 于 “处 理 ” 阶段 , 远 未 达到 像 人 
一 样 能 够 进行 深度 语义 理解 的 水 平 。 另 一 方面 , 由 于 自然 语言 是 人 类 表达 情感 、 抒 发 情 
怀 和 阐述 思想 最 重要 的 工具 ， 当 人 们 针对 某 些 特殊 的 事件 或 现象 表述 自己 观点 的 时 候 ， 
往往 采用 委婉 、 掩 饰 甚至 隐喻 、 反 讽 等 修辞 手段 , 尤其 在 汉语 文本 中 这 种 现象 更 加 明显 ， 
从 而 使 得 文本 挖掘 面临 很 多 特殊 的 困难 , 很 多 在 图 像 分 割 、 语 音 识 别 等 其 他 领域 能 够 取 
得 较 好 效果 的 机 器 学 习 方法 在 自然 语言 处 理 中 往往 难以 大 显 身手 。 归 纳 起 来 , 文本 挖掘 
的 主要 困难 大 致 包括 如 下 几 点 。 

(1) 文本 噪声 或 非 规范 性 表达 使 自然 语言 处 理 面临 巨大 的 挑战 

自然 语言 处 理 通常 是 文本 挖掘 的 第 一 步 。 由 于 文本 挖掘 处 理 的 主要 数据 来 源 是 互联 
网 ， 而 与 规范 的 书面 语 相 比 〈 如 各 类 正式 出 版 的 新 闻 报 刊 、 文 学 作品 、 政 论 和 学 术 论 著 ， 
以 及 国家 和 地 方 政府 电视 台 、 广播 电台 播 出 的 正规 新 闻 稿 件 等 ), 网 络 文本 内 容 存在 大 量 
的 非 规范 表述 。 根 据 [ 宗 成 庆 , 2013] 对 互联 网 新 闻 文 本 进行 的 随机 采样 调查 , 网 络 新 闻 
中 词 的 平均 长 度 约 为 1.68 个 汉字 , 句子 平均 长 度 为 47.3 个 汉字 , 均 短 于 规范 的 书面 文 
本 中 的 词 长 和 名 长 。 相 对 而 言 ， 网 络 文本 中 大 量 使 用 了 口语 化 的 甚至 非 规范 的 表述 方式 ， 
尤其 在 网 络 聊天 文本 中 非 规范 的 表述 比比 皆 是 ,如 “很 中 国 ”“ 都 是 咱 的 福 社 ”“ 摩 登 萌 
妹子 一 秒 变 身 刚 刚 受到 表彰 的 车 间 女 主管 ~ ”等 等 。 下 面 是 一 条 典型 的 微 博信 息 : 

//@XXXX: //QYYYYYY: 中 国 科 学 院 大 学 本 科 招 生 网 bkzs.ucas.ac.cn 正式 开 
通 ， 本 科 招 生 简章 业已 公布 。 期 待 我 们 的 母校 在 充实 新 鲜血 液 后 能 够 再 创 辉 煌 ! 晚安 ， 
RK! 


噪声 和 非 规范 语言 现象 的 出 现 使 常规 的 自然 语言 处 理工 具 的 性 能 大 幅 下 降 ， 如 
在 《人 民 日 报 》《 新 华 日 报 》 等 规范 文本 上 训练 出 来 的 汉语 分 词 工 具 通 常 可 以 达到 95% LA 
上 的 准确 率 ， 甚 至 高 达 98% 以 上 , 但 在 网 络 文本 上 的 性 能 立刻 下 降 到 90% 以 下 。 根据 
[ 张 志 琳 ，2014] 实验 的 结果 , RAE AM (maximum entropy, ME) 分 类 器 的 由 字 
构 词 的 汉语 分 词 方法 (character-based Chinese word segmentation),， 当 词典 规模 加 大 到 
175 万 多 条 (包括 普通 词汇 和 网 络 用 语 ) 时 , 微 博 分 词 的 性 能 F 值 只 能 达到 90% 左 右 。 
而 根据 众多 汉语 句法 分 析 方 法 研究 的 结果 , 在 规范 文本 上 汉语 句法 分 析 器 的 准确 率 可 以 
BIA 86% 左 右 , 而 在 网 络 文 本 上 句法 分 析 器 的 准确 率 平均 下 降 13 个 百分点 [Petrov and 
McDonald, 2012]。 这 里 所 说 的 网 络 文本 还 不 包括 那些 微 博 、 微 信 中 的 对 话 聊天 文本 。 

(2) 歧义 表达 与 文本 语义 的 隐蔽 性 

歧义 是 自然 语言 文本 中 常见 的 现象 , 如 前 面 提 到 的 英语 单词 “bank” 和 汉语 词汇 “ 苹 
果 ” 等 。 另外 , 句法 结构 歧义 同样 大 量 存在 , 如 句子 “关于 和 鲁迅 的 文章 ” 既 可 以 理解 为 “ 关 
于 [鲁迅 的 文章 ]”, 也 可 以 理解 为 “[ 关 于 鲁迅 ] 的 文章 ”。 如 何 解析 这 种 固有 的 自然 语言 
歧义 表达 早已 成 为 自然 语言 处 理 领 域 研究 的 基础 问题 , 但 令 人 遗憾 的 是 这 些 问 题 至 今 没 
有 十 分 奏效 的 处 理 方法 , 在 实际 网 络 对 话 文本 中 却 又 出 现 了 大 量 人 为 的 千奇百怪 的 “ 特 
KRE”, PWN, “AFT” “STE” “URE” AE 

有 时 候 说 话 人 为 了 回避 某 些 事件 或 人 物 ， 故 意 使 用 一 些 特 殊 用 词 或 者 使 用 英文 单词 
代替 某 个 词汇 ,如 “康师傅 ”“ 国 妖 ”“ 范 区 ”等 ,或 者 故意 绕 弯 儿 ， 如 “请 问 x x x AE 
爸 的 儿子 的 前 妻 的 年 龄 是 多 大 ?”。 

请 看 下 面 的 一 则 新 闻 报道 : 


张 小 五 从 警 20 多 年 来 ， 历 尽 千 辛 万 苦 ， 立 下 无 数 战功 ， 曾 被 誉 为 孤胆 英雄 。 然而 ， 
谁 也 未 曾 想 到 ， 就 是 这 样 一 位 曾 让 毒贩 闻风丧胆 的 铁 骨 英雄 竟然 为 了 区 区 小 利 键 而 走 
险 , 痛恨 之 下 昨 晚 在 家 开 枪 自 党 。 


对 于 任何 一 位 正常 的 读者 , 无 须 多 想 就 可 以 完全 理解 这 则 新 闻 所 报 到 的 事件 , 但 如 
果 基 于 该 新 闻 向 一 个 文本 挖掘 系统 提出 如 下 问题 : 张 小 五 是 什么 警察 ? 他 死 了 没有 ? BR 
怕 目 前 很 难 有 系统 能 够 给 出 正确 的 回答 ,因为 文本 中 并 没有 直接 说 张 小 五 其 人 是 警察 ， 
而 是 用 “从 警 ” 和 “毒贩 ”委婉 地 告诉 读者 他 是 一 名 缉毒 警察 , 用 “ 自 毙 ”说 明 他 已 经 自 
杀身 亡 。 这 种 隐藏 在 文本 中 的 信息 需要 通过 深入 的 文本 分 析 和 推理 技术 才 有 可 能 将 其 挖 
据 出 来 , 而 这 往往 是 困难 的 。 

(3) 样本 收集 和 标注 困难 

目前 主流 的 文本 挖掘 方法 是 基于 大 规模 数据 的 机 器 学 习 方法 ,包括 传统 的 机 器 学 习 
方法 和 深度 学 习 (deep learning, DL) 方法 , 需要 大 量 标注 的 训练 样本 , 收集 和 标注 足够 
多 的 训练 样本 是 一 件 非 常 困难 的 事情 。 一 方面 因为 很 多 网 络 内 容 涉及 版 权 或 隐私 权 的 问 
题 而 难以 任意 获取 , 更 不 能 公开 或 共享 ; 另 一 方面 , 即使 能 够 获取 一 些 数据 , 处 理 起 来 也 
是 非常 耗 时 费力 的 事情 ,因为 这 些 数据 往往 含有 大 量 的 噪声 和 乱码 , 格式 也 不 统一 , 而 
且 没 有 数据 标注 的 标准 。 另 外 ,能 够 收集 到 的 数据 一 般 属 于 某 个 特定 的 领域 , 一 旦 领域 
改变 , 数据 收集 、 整理 和 标注 工作 又 得 重新 开始 , 而 且 很 多 非 规范 语言 现象 (包括 新 的 网 
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络 用 语 、 术 语 等 ) 随 领域 而 异 , 且 随 时 间 而 变 , 这 就 极 大 地 限制 了 数据 规模 的 扩大 ， 从 而 
影响 了 文本 挖掘 技术 的 发 展 。 

(4) 挖掘 目标 和 结果 的 要 求 难以 准确 表达 和 理解 

文本 挖掘 不 像 其 他 理论 问题 ,可 以 清楚 地 建立 目标 函数 ,然后 通过 优化 函数 和 求解 
极 值 最 终 获 得 理想 答案 。 在 很 多 情况 下 , 我 们 并 不 清楚 文本 挖掘 的 结果 将 会 是 什么 ,应 
该 如 何 用 数学 模型 清晰 地 描述 预期 想 要 的 结果 和 条 件 。 例如 , 我 们 可 以 从 某 些 文本 中 抽 
取出 频率 较 高 的 、 可 以 代表 这 些 文本 主题 和 故事 的 热点 词汇 , 但 如 何 将 其 组 织 成 以 流畅 
的 自然 语言 表达 的 故事 梗概 (摘要 ), 却 不 是 一 件 容易 的 事情 。 

(5) 语义 表示 和 计算 模型 不 其 奏效 

如 何 有 效 地 构建 语义 计算 模型 是 长 期 困扰 自然 语言 处 理 和 计算 语言 学 (com- 
putational linguistics) 领域 的 一 个 基础 问题 。 自 深度 学 习 方法 兴起 以 来 ， 词 向 量 
(word2vec) 表示 和 基于 词 向 量 的 各 类 计算 方法 在 自然 语言 处 理 中 发 挥 了 重要 作用 。 
但 是 ， 自 然 语 言 中 的 语义 毕竟 与 图 像 中 的 像素 不 一 样 ， 像 素 可 以 精确 地 用 坐标 和 灰 度 描 
述 , 而 如 何 定义 和 表 征 词汇 的 语义 ,如何 实现 从 词汇 语义 到 短语 语义 和 句子 语义 , 最 终 
构成 段落 语义 和 篇 章 语义 的 组 合计 算 , 始终 是 语言 学 家 、 计 算 语言 学 家 和 从 事 人 工 智 能 
研究 的 学 者 们 共同 关注 的 核心 问题 之 一 。 迄今 为 止 , 还 没有 一 种 令 人 信服 的 、 被 广泛 接 
受 且 有 效 的 语义 计算 模型 和 方法 。 目 前 大 多 数 语 义 计算 方法 , 包括 众多 词义 消 歧 方 法 、 
基于 主题 模型 的 词义 归纳 方法 和 词 向 量 组 合 方法 等 , 都 是 基于 统计 的 概率 计算 方法 ， 从 
某 种 意义 上 讲 统计 方法 就 是 选择 大 概率 事件 的 “赌博 方法 ”“, 无 论 在 什么 情况 下 , 只 要 概 
率 大 , 就 会 成 为 最 终 被 选择 的 答案 。 这 实际 上 是 一 种 武断 的 、 甚 至 是 错误 的 权宜 之 计 , 由 
于 计算 概率 的 模型 是 基于 训练 样本 建立 起 来 的 , 而 实际 情况 (测试 集 ) 未 必 都 与 训练 样 
本 的 情况 完全 一 致 ,这 就 必然 使 部 分 小 概率 事件 成 为 “漏网 之 鱼 ”， 因此, 一 律 用 概率 来 
衡量 的 “赌博 方法 ”只 能 解决 大 部 分 容易 被 统计 出 来 的 问题 , 却 无 法 解决 那些 不 易 被 发 
现 、 出 现 频 率 低 的 小 概率 事件 , 而 那些 小 概率 事件 往往 都 是 难以 解决 的 困难 问题 也 就 
是 文本 挖掘 面临 的 最 大 “敌人 ”。 

综 上 所 述 , 文本 挖掘 汇集 了 自然 语言 处 理 、 机 器 学 习 和 模式 分 类 等 各 个 领域 的 难题 
于 一 身 , 甚至 有 时 候 需要 与 图 形 、 图 像 理 解 等 技术 相 结合 , 是 一 项 综合 性 的 应 用 技术 。 这 
一 领域 的 理论 体系 尚未 建立 ， 而 应 用 前 景 极其 广阔 ， 且 时 不 我 待 ,因此 文本 挖 握 必 将 成 
为 一 个 备 受 瞩目 的 研发 热 地 , 并 将 伴随 相关 技术 的 发 展 而 迅速 成 长 壮大 。 
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正如 1.1 节 所 述 , 文本 挖掘 属于 自然 语言 处 理 、 模 式 分 类 和 机 器 学 习 等 相关 技术 的 交 
又 研究 领域 ， 因 此 其 技术 方法 的 使 用 和 发 展 轨 迹 也 随 着 相关 技术 的 发 展 和 变迁 而 改变 。 
回顾 半 个 多 世纪 的 发 展 历史 , 概括 地 讲 , 文本 挖掘 方法 大 致 可 以 分 为 知识 工程 方法 
和 统计 学 习 方 法 两 种 类 型 。 在 20 世纪 80 年 代 之 前 , 文本 挖掘 以 知识 工程 方法 为 主 , 这 
与 当时 基于 规则 的 自然 语言 处 理 方法 、 句法 模式 识别 和 以 逻辑 推理 方法 为 主导 的 专家 系 
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统 占据 主流 地 位 的 历史 轨迹 相 吻 合 。 这 类 方法 的 基本 思路 是 由 领域 专家 基于 给 定 文本 集 
合 的 经 验 知识 和 常识 ， 人 工 提取 和 设计 逻辑 规则 , 通过 推理 算法 对 文本 进行 分 析 和 挖掘 。 
这 种 方法 的 优点 是 , 可 以 利用 专家 的 经 验 和 常识 , 推理 的 每 一 步 都 有 明确 的 依据 , 最终 
结果 有 很 好 的 解释 性 , 但 是 问题 在 于 , 需要 耗费 大 量 的 人 类 资源 分 析 和 总 结 经 验 知识 ， 
系统 的 性 能 受到 专家 知识 库 (规则 、 词典 等 ) 的 约束 , 一 旦 需要 将 系统 移植 到 新 的 领域 
和 任务 上 时 , 很 多 经 验 知识 无 法 重用 ,系统 移植 周期 长 。 到 了 90 年 代 以 后 ， 随 着 统计 机 
器 学 习 方法 的 快速 发 展 和 广泛 应 用 , 基于 统计 机 器 学 习 的 文本 挖掘 方法 在 准确 率 和 稳定 
性 等 方面 具有 明显 的 优势 , 而 且 不 需要 长 期 占用 人 工资 源 , 尤其 在 网 络 大 数据 时 代 , 面 
对 海量 文本 ， 人 工 手 段 无 论 在 速度 , 还 是 处 理 数据 的 规模 和 覆盖 面 等 各 个 方面 显然 无 法 
与 机 器 相 比 ,， 因 此 统计 机 器 学 习 方法 逐渐 成 为 这 一 领域 的 主流 。 近 年 来 兴起 的 深度 学 习 
方法 ,或 称 基 于 神经 网 络 的 机 器 学 习 (neural network based ML) 方法 属于 同一 类 方法 ， 
这 类 方法 也 可 统称 为 数据 驱动 方法 (data driven methods) 。 尽 管 统计 学 习 方 法 也 有 自 
身 的 缺陷 , 如 有 指导 的 (supervised)， 或 称 有 监督 的 机 器 学 习 方法 需要 大 量 的 人 工 标注 
样本 ， 而 无 指导 的 (unsupervised) 模型 性 能 通常 都 比较 差 ， 而 且 无 论 是 有 指导 的 还 是 无 
指导 的 统计 学 习 方 法 ,系统 最 终 产生 的 结果 都 缺乏 充分 的 可 解释 性 。 

总 体 而 言 ， 知 识 工程 方法 和 统计 学 习 方 法 各 有 利弊 ,因此 在 实际 应 用 中 系统 开发 人 
员 往往 将 两 者 结合 起 来 , 在 某 些 环节 利用 特征 工程 方法 , 而 在 某 些 技术 模块 中 使 用 统计 
学 习 方 法 , 通过 两 种 方法 的 融合 尽量 使 系统 达到 较 高 的 性 能 。 从 技术 的 成 熟 度 看 ,知识 
工程 方法 相对 成 熟 ,， 其 性 能 的 天 花 板 也 是 可 以 预见 的 , 而 统计 学 习 方 法 随 着 已 有 模型 不 
断 改 进 , 新 的 模型 不 断 提出 , 模型 和 算法 的 性 能 逐渐 得 到 改善 , 而 且 仍 有 很 大 的 上 升 空 
间 , 尤其 在 大 规模 数据 处 理 方面 拥有 不 可 替代 的 优势 , 因此 统计 学 习 方 法 方兴未艾 。 这 
也 是 本 书 将 内 容重 心 放 在 统计 学 习 方法 上 的 原因 所 在 。 

本 书 主要 介绍 文本 挖 据 的 基本 方法 和 模型 思路 , 而 不 涉及 具体 系统 的 实现 细节 ,也 
不 对 具体 应 用 领域 的 任务 需求 和 面临 的 特殊 问题 给 予 过 多 的 阐述 , 如 近年 来 生物 医药 领 
域 和 金融 领域 的 文本 挖掘 技术 备 受 关注 ,面向 这 些 领 域 需要 很 多 领域 相关 的 技术 和 资 
源 ， 如 领域 知识 库 、 领 域 相关 数据 的 标注 工具 和 标注 样本 等 。 作 者 希望 本 书 介绍 的 基本 
方法 和 模型 具有 一 定 的 通用 性 和 普 适 性 , 读者 掌握 这 些 基本 理论 方法 之 后 ,能够 根据 自 
己 面 对 的 具体 任务 需求 进行 方法 扩展 和 系统 实现 。 

除了 本 章 内 容 之 外 , 后 面 9 章 的 内 容 按 如 下 思路 组 织 , 见 图 1.1。 


准备 工作 : 基础 模型 : 

第 2 章 : 数据 预 处 理 和 一》 第 3 章 : 文本 表示 第 4 章 : 文本 分 类 
标注 第 5 章 : 文本 聚 类 How. 主题 模型 
| rT 

应 用 技术 : 

第 7 章 : 情感 分 析 与 观点 挖掘 。 ”第 8 章 : 话题 检测 与 跟踪 

第 9 章 : 信息 抽取 第 10 章 : 文本 自动 摘要 


图 1.1 本 书 的 内 容 组 织 
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第 2 章 介绍 数据 预 处 理 方法 。 数 据 预 处 理 是 后 续 所 有 模型 和 算法 实现 之 前 的 准备 阶 
段 , 如 汉语 、 日 语 、 越南 语 等 文本 的 词语 切 分 , 尤其 对 于 网 络 文本 来 说 , 文本 中 含有 大 量 
的 噪声 和 非 规范 表达 , 如 果 不 对 这 些 数据 进行 预 处 理 ， 后 续 的 模型 和 算法 必 将 受到 干扰 ， 
很 难 达到 预期 的 效果 ， 甚至 无 法 运行 。 第 3 章 文 本 表示 是 后 续 儿童 所 用 模型 的 基础 ,如 
果 不 能 准确 地 表示 文本 , 就 无 法 运用 后 面 各 章 介 绍 的 数学 模型 。 第 4 章 介绍 的 文本 分 类 
方法 、 第 5 章 介 绍 的 文本 聚 类 算法 和 第 6 章 介 绍 的 主题 模型 从 某 种 意义 上 讲 是 其 他 文本 
挖掘 技术 的 理论 基础 ， 因 为 分 类 和 聚 类 是 模式 识别 最 基础 、 最 核心 的 两 个 问题 ， 也 是 统 
计 机 器 学 习 和 统计 自然 语言 处 理 中 最 常用 的 两 种 方法 ， 后 续 几 章 介绍 的 模型 和 方法 大 都 
可 以 被 归结 分 类 和 聚 类 问题 ， 或 者 采用 分 类 或 聚 类 的 思想 解决 。 所 以 ,第 4~6 章 可 以 看 
作 是 全 书 内 容 的 理论 基础 , 或 称 基础 模型 。 需要 说 明 的 是 , 文本 分 类 、 聚 类 和 主题 模型 除 
了 作为 基础 模型 以 外 , 有 时 也 被 作为 一 种 具体 应 用 。 

第 7~10 章 可 以 看 作 是 文本 挖掘 应 用 技术 。 某 一 项 技术 可 以 针对 某 个 特定 任务 构建 
一 个 系统 , 也 可 以 是 几 项 技术 联合 完成 一 系列 任务 。 在 实际 应 用 中 , 多 数 情况 下 不 是 单 
个 技术 的 应 用 , 而 是 多 项 相关 技术 的 联合 应 用 和 和 集成。 例如, 在 医药 领域 的 文本 挖掘 任 
务 通常 涉及 文本 自动 分 类 和 聚 类 、 主 题 模型 、 信 息 抽 取 和 自动 文摘 等 技术 , 而 在 面向 社 
交 网 站 的 舆情 监 控 任务 中 , 可 能 涉及 文本 分 类 、 聚 类 、 主 题 模 型 、 话 题 检 测 与 跟踪 ， 以 及 
情感 分 析 和 观点 挖 握 等 ,甚至 还 涉及 自动 文摘 。 

随 着 互联 网 和 移动 通信 技术 的 快速 发 展 和 普及 , 很 可 能 会 出 现 新 的 应 用 需求 和 归属 
于 文本 数据 挖掘 的 新 技术 , 但 是 , 我 们 认为 不 管 什 么 样 的 应 用 需求 , 也 无 论 被 冠 以 什么 
名 称 的 新 技术 ,可 能 会 有 新 的 文本 表示 方法 和 类 别 距 离 计量 方法 , 也 可 能 会 有 新 的 实现 
方法 和 模型 (如 端 到 端的 神经 网 络 模型 ), 但 聚 类 和 分 类 的 基本 思想 及 其 在 各 种 任务 里 的 
渗透 和 应 用 , 不 会 发 生根 本 性 的 改变 。 正 所 谓 “ 万 变 不 离 其 宗 ”。 
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本 书后 续 各 章 分 别 介绍 不 同 任务 的 文本 挖掘 方法 ， 以 任务 目标 为 导向 阐述 各 种 文 
本 挖掘 任务 的 目标 、 解 决 思路 和 实现 方法 。 本 章 作为 全 书 的 开篇 , 主要 介绍 文本 挖掘 的 
基本 概念 和 面临 的 问题 。 关 于 数据 挖掘 概念 的 详细 阐述 ， 读 者 可 以 参阅 如 下 文献 : [Han 
et al.,，2012] 、[ 程 显 角 等 ，2010]、[ 李 雄 飞 4, 2010] 和 [EHE $, 2007] 等 。[ 吴 信 东 
等 ,2013] 介绍 了 数据 挖掘 领域 的 十 大 经 典 算法 。[Aggarwal, 2018] 是 一 部 比较 全 面 的 介 
绍 文本 数据 挖掘 技术 的 专著 , 通过 对 比 读者 可 以 发 现 , 在 该 书 中 将 文本 数据 挖掘 看 作 是 
机 器 学 习 技术 的 具体 应 用 , 侧重 于 从 机 器 学 习 方 法 (尤其 是 传统 的 机 器 学 习 方 法 ) 的 角 
度 探讨 文本 信息 处 理 问 题 , 深度 学 习 和 神经 网 络 方法 涉及 较 少 , 并 且 对 文本 挖掘 各 项 任 
务 的 相关 工作 介绍 也 都 以 传统 方法 为 主 , 而 近年 来 出 现 的 基于 深度 学 习 方 法 的 相关 工作 
介绍 的 不 多 , 如 在 文本 分 类 、 情感 分 析 与 观点 挖掘 中 几乎 都 没有 提 及 。 而 在 本 书 中 , 我 们 
将 文本 数据 挖掘 看 作 是 自然 语言 处 理 技术 的 实际 应 用 ,因为 文本 是 自然 语言 的 一 种 呈现 
方式 ,既然 要 从 文本 中 挖掘 用 户 所 需要 的 信息 ,当然 离 不 开 自然 语言 处 理 技术 。 因 此 , 本 
书 以 任务 需求 为 驱动 ， 从 自然 语言 处 理 的 视角 通过 实例 和 过 程 化 描述 曾 述 文本 数据 挖掘 
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模型 和 算法 的 基本 原理 , 如 在 文本 表示 一 章 中 , 分 别 从 词 、 句子 、 文 档 的 粒度 归纳 了 基于 
深度 学 习 方 法 的 文本 表示 和 建 模 方法 ,并 且 在 后 面 的 文本 挖掘 各 项 任务 中 , 除了 介绍 传 
统 的 经 典 方法 以 外 ,都 特别 关注 了 近年 来 备 受 推崇 的 深度 学 习 方法 。 

如 果 说 [ 宗 成 庆 , 2013] 是 自然 语言 处 理 技术 入 门 的 一 本 基础 性 专著 或 教材 的 话 , 那 
么 ， 本 书 则 是 一 本 自然 语言 处 理 技术 应 用 的 导论 性 读物 。 前 者 主要 介绍 自然 语言 处 理 的 
基本 概念 、 基 础 理论 、 工 具 和 方法 ， 而 本 书 重 点 阐述 自然 语言 处 理应 用 系统 的 实现 方法 
和 经 典 模型 。 

有 些 专著 对 某 些 文本 数据 挖掘 的 专项 技术 进行 了 详细 阐述 ， 具 有 很 好 的 参考 价值 ， 
如 [Liu, 2011; 2012; 2015] 对 网 络 数据 挖掘 、 情 感 分 析 和 观点 挖掘 等 概念 和 相关 技术 给 
予 了 详细 介绍 ; [Marcu, 2000] 和 [Inderjeet, 2001] 对 自动 摘要 技术 有 详细 的 阐述 ,尤其 
是 对 早期 文摘 技术 的 介绍 。 在 后 续 各 章 的 “进一步 阅读 ”中 都 会 给 出 相关 的 推介 。 

另外 需要 说 明 的 是 ,本 书 默认 读者 已 经 具备 一 定 程 度 的 模式 识别 和 机 器 学 习 基 础 ， 
因此 对 很 多 基础 理论 和 方法 并 不 做 详细 的 介绍 , 略 去 了 很 多 模型 和 公式 的 详细 推导 ， 只 
是 将 其 作为 工具 引用 。 如 果 读 者 想 了 解 关 于 模式 分 类 和 机 器 学 习 等 基础 模型 和 公式 的 详 
细 推 导 过 程 , 推荐 读者 参阅 如 下 专著 : [ 李 航 , 2019]、[ 周 志 华 , 2016]、 [于 剑 , 2017]、[ 张 学 
T, 2016] 等 。 
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正如 第 1 章 所 述 , 在 实际 应 用 中 有 监督 的 统计 学 习 方 法 是 目前 构建 实用 系统 的 主流 
方法 ， 而 大 规模 带 标注 的 数据 是 这 种 方法 的 基础 和 前 提 。 在 网 络 大 数据 时 代 , 海量 文本 、 
图 像 和 视频 等 各 类 数据 都 可 以 轻易 获得 。 但是, 直接 从 网 上 获取 的 数据 或 者 来 自 其 他 渠 
道 的 原始 数据 ， 如 医生 书写 的 病历 、 大 飞机 检测 日 志 、 微 信 聊 天 记录 等 , 往往 都 含有 品 
声 , 存在 大 量 的 非 规 范 语 言 现 象 ,这 就 为 后 续 任 务 的 模型 学 习 造 成 了 很 大 的 障碍 ,因此 
必须 对 这 些 数据 进行 预 处 理 。 

本 章 简 要 介绍 数据 获取 和 预 处 理 的 基本 方法 。 


2.1 数据 获取 


针对 不 同 的 数据 挖 所 任务 , 数据 获取 渠道 和 方式 有 所 不 同 。 从 数据 来 源 的 渠道 考虑 ， 
通常 有 两 种 情况 : 一 种 是 开放 域 的 ， 如 面向 社交 媒体 构建 与 情 检测 系统 时 , 数据 自然 来 
自 所 有 能 够 获取 的 公共 社交 网 络 ,包括 移动 终端 ， 尽管 文本 的 主题 可 能 是 关于 某 个 或 某 
些 特定 的 话题 , 但 是 数据 来 源 却 是 公开 的 ; 另 一 种 是 封闭 域 的 ,如 面向 金融 领域 的 文本 
数据 挖掘 任务 处 理 的 数据 是 来 自 银行 等 金融 行业 的 专 有 数据 ,而 面向 医院 的 数据 挖掘 任 
务 处 理 的 文本 存在 于 医院 的 医疗 机 构 内 部 的 专用 网 络 , 普通 用 户 是 无 法 获取 的 。 当 然 
所 谓 的 开放 域 和 封闭 域 都 不 是 绝对 的 ， 或 者 在 实际 系统 实现 时 ， 仅 仅 依靠 某 个 领域 内 的 
数据 是 不 够 的 ,因为 领域 内 的 数据 主要 包含 的 是 专业 领域 知识 和 数据 ,而 很 多 常识 往往 
存在 于 公共 文本 中 , 因此 需要 从 公 网 上 (包括 维基 百科 、 百 度 百科 等 ) 或 教科 书 、 专 业 文 
献 中 获取 和 补充 。 相 对 而 言 , 来 自 专用 网 络 平台 的 数据 比较 规范 , 而 公共 网 络 平台 (尤其 
是 社交 网 站 ) 上 的 数据 含有 较 多 的 噪声 和 非 规范 语言 现象 ,因此 需要 花费 更 多 时 间 进行 
数据 的 清理 和 预 处 理 。 

下 面 以 获取 电影 评论 为 例 ,说 明 数 据 获 取 的 一 般 方法 。 

在 获取 数据 之 前 首先 得 知道 所 需要 的 数据 一 般 存在 于 哪些 网 站 上 。“ 豆 辩 电 影 ” ! 提 
供用 户 对 电影 的 评论 ,主页 内 有 很 多 电影 的 链接 , 如 图 2.1 所 示 。 以 《 碟 中 谋 6》 为 例 , 这 
部 电影 的 主页 内 部 有 很 多 评论 , 如 图 2.2 所 示 , 一 共有 22.08 余 万 人 给 予 了 点 评 , 平均 分 
数 为 8.2 分 ( 见 图 2.2 右边 的 “ 豆 状 评 分”)。 这 个 主页 的 下 面 也 会 提供 一 些 评论 内 容 及 其 
得 分 ,如 图 2.3 所 示 , 但 不 够 全 面 , 点击 图 中 最 上 面 一 行 的 “全 部 79481 条 ”之 后 可 以 查 


1https://movie.douban.com/ 


12 第 2 章 数据 预 处 理 和 标注 


看 全 部 短评 的 链接 1。 每 个 页 面 最 后 都 会 有 一 个 “后 页 > ”的 按钮 ， 点击 后 得 到 下 一 页 评 
WAR. 通过 使 用 Python 的 urllib2 库 可 以 下 载 一 个 链接 所 包含 的 数据 。 


豆瓣 电影 TEUS. WIR. 5B, A 加 


mmea dew 电视 刚 AS 2S mr ovsem 。 2017 观 影 报告 


EHA camme» miis 


图 2.1 豆瓣 电影 主页 


碟 中 谍 6 : 全 面 瓦 解 Mission: Impossible - Fallout (2018) 


导演 : RBs ZEB 豆 敌 评分 

编剧 : RBM SES /布鲁斯 BD 82 he kek te 
主演 : 汤姆 - 克 鲁 斯 / SA 卡 维尔 / 文 珊 姆 斯 / PRR ES / 7 220825 人 评价 
BIRR 弗格森 / 更 多 5 星 30.9% 
类 型 : 动作 /惊悚 /冒险 4 50.6% 
制 片 国家 /地 区 : 美国 i 

语言 英语 /法 语 15 02% 

上 了 映 日 期 2018-08-31( 中 国 大 陆 ) / 2018-07-27( 美 国 ) 

片 长 : 147 分 钟 / 148 分 钟 (中 国 大 陆 ) 好 于 95% 动作 片 


又 名 : pR / 不 可 能 的 任务 : 全 面 瓦解 ( 台 ) / 职业 特工 让 PEER 

` 好 于 89% 冒险 片 
BA : 叛逆 之 这 ( 洪 ) / Mission: Impossible 6 / MI6 
IMDb 链接 tt4912910 


图 2.2 《 碟 中 碟 6》 主 页 面 ? 


值得 注意 的 是 , 通常 这 个 短评 网 站 只 能 访问 10 页 , 超过 10 页 的 数据 需要 用 户 登 录 
才 可 以 访问 , 一般 有 两 种 解决 方案 : 每 部 电影 只 抓 前 10 页 内 容 , 更 多 地 抓 取 不 同 电影 
的 影评 数据 ; @ 使 用 仆 虫 对 网 站 进行 模拟 登录 , 主要 思路 是 分 析 人 工 登 录 网 页 时 的 信息 
流 走向 , 通过 爬虫 模拟 人 工 登 录 的 过 程 。 有 的 网 站 ?针对 豆 准 网 给 出 了 模拟 登录 的 方法 和 


‘https: //movie.douban.com/subject /26336252/comments?status=P 
https: //movie.douban.com/sub ject /26336252/?from=showing 
Shttps://www.cnblogs.com/jinxiao-pu/p/6670672.html 
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Python 实战 纪要 , 或 者 总 结 了 Python 模拟 登录 的 一 般 方法 !。 有 兴趣 的 读者 可 以 自己 


碟 中 谍 6 : 全 面 瓦解 的 短评 … … - (全 部 79481 条 ) / 我 要 短评 
Ra] / 最 新 / 好 友 
REE 看 过 妇女 妇女 友 2018-07-13 3047 有 用 


第 四 部 的 肤 头 是 迪拜 塔 ， 第 五 部 是 徒手 扒 飞 机 ， 这 一 部 则 是 HALO 跳 全 和 雪山 里 的 直 升 飞机 。 有 阿 汤 哥 在 ， 动 作 场景 一 
定 拼 到 没 毛 病 ， 大 超 加 最 算是 对 了 ， 打 斗 戏 份 排 得 很 妙 ， 拳 拳 到 肉质 感 很 好 。 这 一 部 女性 角色 非常 抢眼 ,一 众 女 主 女 


配 气 场 惊人 各 有 干 秋 ，Julia 的 出 现 倒是 还 真 对 得 起 她 这 个 角色 ， 并 没 到 行 。 

Erik Li 看 过 Arre 2018-07-26 923 有 用 
这 一 集 , 几 位 女性 真是 太 棒 了 ， 包 括 巴黎 的 那 位 小 女 警 。 班 台 和 路 德 的 老 梗 玩 得 很 多 ， 笑 到 牙 疼 。 有 这 样 的 team , 阿 
汤 哥 就 算 七 十 岁 都 nothing impossible。 阿 汤 哥 的 跑 跳 假 ， 还 有 无 死角 的 驾驶 技术 ， 是 越 来 越 牛 逼 了 。 这 第 6 集 , 不 是 全 
面 瓦解 ， 是 全 面 巩固 。 

次 等 水 货 Bit krie 2018-08-25 930 有 用 


那个 法 国 女 警 家 在 一 分 钟 之 内 就 会 受 上 阿 汤 哥 吧 , AT. 


FE 看 过 kt 2018-07-26 752 有 用 
四 点 五 分 没 问 题 ， 比 上 周 的 摩天 大 楼 好 看 也 就 五 倍 吧 , 


Departure 陆 高 看 过 Arii 2018-07-26 456 有 用 


阿 汤 哥 演 的 伊 森 太 完 美 了 ， 以 至 于 白 寡妇 这 个 角色 被 衬托 的 特别 好 ， 她 第 一 眼 望 过 去 眼神 里 就 充满 了 想 上 伊 森 的 情欲 
D。 不 得 不 说 IMF 的 任务 一 次 比 一 次 变态 ， 阿 汤 哥 快 60 的 身体 不 知道 下 一 步 还 打 不 打 得 住 ( 另外 按照 往常 惯例 这 部 里 他 
居然 不 是 长 发 真 的 惊 了 ) ， 朱 莉 亚 回归 太 炉 情 . 


图 2.3 《 碟 中 谍 6》 评 论 页 面 ? 


使 用 Python 编程 语言 对 某 个 网 站 进行 数据 抓 取 时 ,首先 要 查看 并 遵守 该 网 站 的 
Robot 协议 , 该 协议 定义 了 网 站 的 哪些 数据 可 以 被 抓 取 , 哪些 不 能 抓 取 。 图 2.4 给 出 了 
豆瓣 的 Robot 协议 内 容 , 协议 中 的 “Disallow” 限 定 了 不 能 被 抓 取 的 内 容 (很 多 搜索 相 
关 的 内 容 都 不 能 被 抓 取 ), 同时 规定 了 抓 取 时 两 次 访问 的 时 间 间 隔 为 5 BD CN “Crawl 
delay:5”)。 其 中 并 没有 约束 不 能 抓 取 的 影评 内 容 ， 因 此 这 部 分 内 容 是 可 以 获取 的 , 但 是 
要 符合 抓 取 的 时 间 间 隔 。 其次, 在 抓 取 过 程 中 , 应 尽量 降低 抓 取 的 速度 , 实际 上 每 次 抓 取 
都 是 对 网 站 服务 器 的 一 次 访问 , 如 果 抓 取 过 于 频繁 , 会 影响 网 站 服务 器 的 运行 。 另 外 , 应 
尽量 在 网 站 访问 流量 较 少 时 进行 抓 取 (如 夜间 ), 避免 干扰 网 站 的 正常 工作 。 


下 载 之 后 的 网 页 数据 一 般 都 有 较 好 的 结构 ,可 以 通过 Python 的 Beautiful Soup T. 
具 包 对 下 载 的 网 页 进行 解析 , 提取 网 页 中 的 内 容 , 并 获取 下 一 页 的 链接 。 解析 网 页 时 需要 
将 网 页 的 行 分 隔 符 (\r”,“\n’) 删除 , 网 页 数据 中 可 能 有 很 多 类 似 于 “&nbsp;”,“&lt;” 
的 特定 符号 , 分 别 表示 空格 和 小 于 号 等 , 不 需要 时 可 以 将 其 蔡 换 掉 。 常 见 的 网 页 特殊 符 
号 对 应 情况 如 表 2.1 所 示 。 


1https://www.cnblogs.com/chenxiaohan/p/7654667.html 
2https://movie.douban.com/subject/26336252/?from—showing 
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User-agent: * 

Disallow: /subject_search 

Disallow: /amazon_search 

Disallow: /search 

Disallow: /group/search 

Disallow: /event/search 

Disallow: /celebrities/search 

Disallow: /location/drama/search 

Disallow: /forum/ 

Disallow: /new_subject 

Disallow: /service/iframe 

Disallow: /j/ 

Disallow: /link2/ 

Disallow: /recommend/ 

Disallow: /trailer/ 

Disallow: /doubanapp/card 

Sitemap: https://www. douban. com/sit emap_index. xml 
Sitemap: https://www. douban. com/sit emap_updated_index. xml 
# Crawl-delay: 5 


User-agent: Wandoujia Spider 


Disallow: / 
图 2.4 FRH Robot 协议 1 
表 2.1 网 页 中 特殊 符号 对 应 表 ? 

显示 结果 描述 实体 名 称 实体 编号 

空格 &nbsp; &#160; 
< 小 于 号 &lt; & #60; 
> ATS &gt; & #62; 
& 和 号 &amp; & #38; 
i 引号 &quot; & #34; 
g HS &apos; (IE 不 支持 ) &#39; 
¢ 分 (cent) &cent; &#162; 
£ 镑 (pound) &pound; &#163; 
¥ 元 (yen) &yen; &#165; 
€ 欧元 (euro) &euro; & #8364; 
§ 小 节 &sect; & #167; 
© 版 权 (copyright) &copy; & #169; 
® 注册 商标 &reg; & #174; 
zm 商标 &trade; & #8482; 
x 乘 号 &times; & #215; 
+ 除 号 &divide; & #247; 


得 到 评论 内 容 后 还 需要 进行 数据 清理 , 删除 噪声 或 者 是 过 短 的 评论 (通常 没有 意 
义 ), 具体 过 程 如 下 : 

CL) 噪声 处 理 : 抓 取 到 的 中 文 文本 中 可 能 会 有 一 些 英 文 的 评论 , 或 者 在 抓 取 英文 数 
据 时 有 一 些 其 他 语言 的 文本 。 这 就 需要 对 字符 串 的 语言 类 型 进行 识别 , 可 以 借助 Python 


1https://www.douban.com/robots.txt 
2http://www.w3school.com.cn/html/html_entities.asp 
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的 langdetect 工具 包 帮 助 识 别 ， 删 除 那些 不 需要 的 语言 数据 。 另 外 , 抓 取 到 的 微 博 数 据 
中 可 能 含有 广告 链接 和 “@” 等 , 需要 做 特殊 处 理 。 链接 类 可 以 直接 删除 ,“@” 后 面 一 般 
会 跟 用 户 名 , 可 以 利用 规则 或 模板 等 简单 的 方法 判断 后 删除 。 

(2) 繁体 字 转 换 : 抓 取 到 的 中 文 文本 中 可 能 会 有 一 些 繁体 字 , 需要 将 其 转换 成 简体 
F, 可 以 借助 开源 工具 包 OpenCCfi 或 其 他 工具 完成 。 

(3) 删除 过 短 的 评论 : 对 于 英文 的 评论 , 可 以 直接 利用 空格 统计 评论 文本 的 词汇 数 ， 
对 于 中 文 文本 , 需要 使 用 分 词 工具 对 评论 进行 分 词 之 后 统计 词汇 数 日 。 通常 删除 词汇 数 
ae FES EE (如 5) 的 评论 。 

(4) 标签 对 应 : 不 同 网 站 上 提供 的 标签 类 别 不 尽 相 同 ， 而 标签 类 别 与 希望 学 习 的 
分 类 器 类 别 也 会 有 所 差异 ,因此 需要 进行 标签 或 类 别 对 应 。 例 如 ， 从 网 站 上 抓 取 的 评 
价 打分 是 5 分 制 ， 而 情感 分 类 器 只 需 区 分 庄 、 贬 两 类 ， 因 此 需要 把 不 同 打分 的 评论 标 
SET DB “EM” 或 “贬义 ”两 个 类 别 上 ， 如 将 得 分 为 4 和 5 的 样本 作为 误 义 样本 , 得 
分 为 1 分 和 2 分 的 样本 作为 贬义 样本 ， 而 删除 那些 得 分 为 3 分 的 “中 立 ” 样本。 如 果 
要 学 习 一 个 计 义 、 中 性 和 贬义 的 三 类 分 类 器 ,那么 将 那些 得 分 为 3 分 的 样本 标注 为 
中 性 。 

对 于 其 他 任务 的 开放 领域 数据 获取 方法 大 同 小 异 ， 只 是 后 续 的 标注 方法 各 不 相同 ， 
如 文本 自动 摘要 、 信 息 抽取 等 ， 需 要 人 工 标注 的 内 容 远 比 简单 地 标记 类 别 复杂 得 多 , 但 
那 是 另外 一 个 问题 。 


2.2 ”数据 预 处 理 


数据 获取 之 后 , 通常 还 需要 对 文本 进一步 做 预 处 理 , 主要 任务 包括 : 

(1) 词 条 化 〈tokenization) : 是 指 将 给 定 的 文本 切 分 成 为 词汇 单位 的 过 程 。 西方 
语言 (如 英语 等 ) 天 然 使 用 空格 作为 词 的 分 隔 符 ， 因 此 只 需 利 用 空格 或 标点 就 能 实现 词 
条 话 ， 而 汉语 和 部 分 黏着 语 〈 如 日 语 、 韩 语 、 越 南 语 等 ) 书写 中 没有 词语 分 隔 标记 ， 
此 需要 先进 行 词语 切 分 , 这 一 过 程 在 中 文 信息 处 理 中 称 作 汉语 自动 分 词 (Chinese word 
segmentation, CWS) 。 

(2) 去 停 用 词 : 停 用 词 (stop words) 主要 指 功 能 词 (functional words), 通常 指 在 
各 类 文档 中 频繁 出 现 的 、 附 带 极 少 文本 信息 的 助词 、 介词、 连词 、 语 气 词 等 高 频 词 ， 如 英 
文中 的 the, is. at. which, on 等 , 汉语 中 的 “的 “了”“ 是 ”等 。“ 是 ”尽管 不 是 功能 词 ， 
但 由 于 出 现 频率 很 高 ， 对 于 文本 区 分 没有 实质 性 意义 ， 因 此 通常 也 作为 停 用 词 被 去 掉 。 
为 了 减少 文本 挖掘 系统 的 存储 空间 , 提高 运行 效率 , 常常 在 文本 表示 时 就 自动 将 这 些 停 
用 词 过 滤 掉 。 在 具体 实现 时 通常 建立 一 个 停 用 词 表 , 在 特征 抽取 时 直接 删除 停 用 词 表 中 
的 词 。 

(3) 词 形 规范 化 : 在 针对 西方 语言 的 文本 挖掘 任务 中 ， 需 要 对 一 个 词 的 不 同形 态 进 
行 归并 , 即 词 形 规范 化 ,从 而 提高 文本 处 理 的 效率 ,同时 减缓 离散 特征 表示 可 能 造成 的 


1https://opencc.byvoid.com/ 
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数据 稀疏 问题 。 词 形 规范 化 过 程 包含 两 个 概念 , 一 是 词 形 还 原 (lemmatization)， 即 把 任 
意 变形 的 词汇 还 原 成 为 原形 (能够 表达 完整 的 语义 ), 如 将 cats 还 原 为 cat、did 还 原 为 
do 等 ; 二 是 词 干 提取 (stemming)， 去 除 词缀 得 到 词根 的 过 程 (不 一 定 能 够 表达 完整 的 
语义 ), 如 将 fisher 转换 为 fsh、effective 转换 为 effect。 

词 形 规范 化 过 程 一 般 通过 规则 或 正则 表达 式 实现 。 波 特 词 干 提取 算法 (Porter 
Stemming Algorithm.) 是 一 种 使 用 广泛 的 英语 词 干 提取 算法 1， 采 用 基于 规则 的 实现 方 
法 [Porter, 1980]。 该 算法 主要 包括 如 下 4 步 : 将 字母 分 为 元 音 和 辅音 ; @ 利 用 规则 处 
理 以 -s、-ing 和 -ed 为 后 级 的 单词 @ 设 计 专门 的 规则 处 理 复杂 的 后 缀 (如 -ational 等 ); 
@ 利 用 规则 微调 处 理 结果 。 下 面 给 出 该 算法 的 基本 流程 。 


输入 : 一 个 英文 单词 ; 
输出 : 输入 单词 的 词 干 或 原形 。 
算法 描述 : 
第 一 步 : 利用 如 下 规则 区 分 元 音字 母 和 辅音 字母 : 
(1) 字 母 ae i, 0, u 为 元 音 ; 
(2 ) 字 母 y 有 如 下 三 种 情况 : 
Dek y 是 单词 的 开头 ， 判 断 为 辅音 ， 如 在 单词 young P, y 是 辅音 ; 
Ouk y 的 前 一 个 字母 为 元 音 , y 被 判断 为 辅音 ， 如 在 单词 boy F, y 是 辅音 字母 ; 
图 如 果 y 的 前 一 个 字母 为 辅音 , y 被 判断 为 元 音 ， 如 在 单词 ly P, y 为 元 音字 母 。 
(3) 除 了 a,e, i, o, u, y 的 其 他 字母 均 为 辅音 字母 。 


第 二 步 : 利用 如 下 规则 处 理 以 -s、-ing 和 -ed 为 后 组 的 单词 
(1) 以 -s 结尾 的 单词 分 如 下 几 种 情况 处 理 : 
Dw RIA -sses 结尾 ， 将 其 还 原 为 -ss， 如 单词 caresses 应 还 原 为 caress; 
回 如 果 单 词 以 -ies 结尾 ， 删 除 -es， 如 cries 变 为 cri; 
回 如 果 单 词 以 -s 结尾 , Hs 之 前 的 所 有 字母 至 少 有 一 个 为 元 音字 母 ， 考 虑 如 下 两 种 情况 : 
(a ) 如 果 该 元 音字 母 在 结尾 的 s 之 前 ， 则 单词 不 变 ， 如 单词 gas 就 是 原形 ,无需 变动 ; 
(b) 否则 ,删除 尾 端 的 字母 s， 如 gaps 还 原 为 gap. 
(2 ) 以 -ing 结尾 的 单词 , 并且 单 词 除了 -ing 之 外 , 前 面部 分 包含 一 个 元 音字 母 , 那么 , 删除 -ing, 
如 单词 doing 还 原 为 do。 


第 三 步 : 利用 如 下 规则 处 理 其 他 后 缓 的 单词 : 

(1 ) 如 果 单 词 以 -y 结尾 ,， 并且 -y 前 面 的 部 分 包含 了 元 音字 母 , 那么 , 将 -y KA i, 如 单词 happy 
被 改写 为 happi; 

(2 ) 如 果 单词 以 -ational 结尾 ， 并 且 -ational 前 面 的 部 分 包含 元 音字 母 ， 那么, 将 -ational 改写 
为 ate， 如 单词 relational 被 改写 为 relate. 
第 四 步 : 利用 规则 微调 : 

对 于 以 -e 结尾 的 单词 ， 如 果 该 单词 除去 首 字 母 和 尾 字母 之 后 ， 其 他 部 分 包含 的 辅音 字母 个 数 大 
于 1， 则 去 掉 尾 端 字母 e。 如 relate A relat. 


算法 2.1 Porter 词 干 提取 算法 


1https://tartarus.org/martin/PorterStemmer/ 
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在 上 述 给 出 的 Porter 词 干 提取 算法 中 , 第 二 步 至 第 四 步 中 只 是 给 出 了 部 分 主要 的 改 
写 规则 ,其 余 情 况 没 有 一 一 陈列 , 只 是 以 此 为 例 说 明 算法 的 基本 原理 。 该 算法 的 详细 描 
述 可 见 如 下 网 页 : 

http://snowball.tartarus.org/algorithms/english/stemmer.html 

算法 的 在 线 测试 网 址 为 : 

http://facweb.cs.depaul.edu/mobasher/classes/csc575/porter.html 

算法 的 实现 代码 可 从 以 下 网 页 获取 : 

https://tartarus.org/martin/PorterStemmer/ 

另外 , Python 的 NLTK 工具 包 也 提供 了 该 算法 的 调用 函数 。 

需要 说 明 的 是 ， 词 干 提取 结果 并 没有 统一 的 标准 ,对 于 同一 种 语言 的 词汇 不 同 的 词 
干 提取 算法 可 能 给 出 不 同 的 结果 。 除了 Porter 算法 以 外 , Lovines stemmer[Lovins, 1968] 
和 Paice stemmer[Paice, 1990] 也 是 常用 的 英语 词 干 提取 算法 。 


2.3 数据 标注 


数据 标注 是 有 监督 的 机 器 学 习 方 法 赖 以 实现 的 基础 。 一 般 而 言 , 数据 标注 的 规模 越 
大 、 质 量 越 高 、 履 盖 范 围 越 广 ， 处 理 模型 的 性 能 越 好 。 对 于 不 同 的 数据 挖掘 任务 ,数据 标 
注 的 标准 和 规范 不 同 , 复杂 程度 也 不 一 样 。 例如 , 对 于 文本 分 类 任务 而 言 , 只 需要 对 每 个 
文档 标记 类 别 标签 , 而 对 于 某 些 复杂 任务 , 需要 标记 的 信息 要 多 得 多 。 例如 , 针对 电子 病 
例 分 析 任务 ， 需 要 标注 出 病例 中 每 一 个 “实体 ”的 边界 和 类 型 。 这 里 所 说 的 “实体 ” 既 包 
括 通常 我 们 所 说 的 命名 实体 (人 名 、 地名、 组 织 机 构 名 、 时 间 、 数 字 等 ), 也 包括 很 多 医 
疗 领 域 的 专用 名 词 ， 如 疾病 、 有 某 种 症状 、 无 某 种 症状 、 发生 的 频率 、 恶化 因素 、 无 关 因 
素 、 程度 等 。 请 看 如 下 两 个 例子 : 

@ 患 者 于 【1971 年 ]rime 因 时 有 【有 尿 痛 】sym 在 【当地 医院 〗Hosp HH, 自述 【 尿 液 检 
E lre 发 现 【 尿 红细胞 阳性 TR,【 和 白细胞 阳性 〗TR， 其 余 化 验 检查 结果 不 详 , 诊断 “【 肾 
RA pis?» P ERA” HV treat 治疗 ,后 长 期 间断 【口服 中 药 】〗rveat 治疗 。 

ORAE] pis 病史 【30 E]n LESA] ps 病史 【8 #1 pur, [2009 年 9 
月 】rime 行 【 冠 状 动脉 造影 〗rR 检查 ， 于 【前 降 支 放置 1 枚 支架 〗meat， 目 前 偶 有 【 胸 
闷 ]sym 发 作 。 

其 中 , 标签 Time 表示 时 间 ，Sym 表示 有 这 种 症状 ，Hosp 表示 医院 名 称 ，Test 表示 
MRE, TR 表示 化 验 检 查 结果 ，Dis 表示 疾病 名 称 ，Treat 表示 治疗 方法 ,Dur 表示 
持续 时 间 。 

在 电子 病例 分 析 任务 中 , 通常 会 定义 20 多 种 不 同 的 标签 。 具 体 标 注 时 ， 一 般 需 要 开 
发 一 个 标注 工具 , 除了 标注 出 所 有 “实体 ”的 边界 和 类 型 以 外 , 还 要 标注 出 它们 之 间 的 关 
A. 对 于 上 述 例 @, 我 们 的 标注 工具 给 出 的 是 图 2.5 所 示 的 关系 图 。 
当然 , 这 种 关系 图 只 是 为 了 方便 标注 者 和 领域 专家 直观 地 检查 和 标注 , 实际 上 系统 
内 部 存储 的 是 特定 的 符号 标记 。 对 于 这 种 需要 专业 知识 指导 的 标注 任务 , 如 果 没 有 领域 
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专家 的 指导 是 很 难 完成 的 。 
发 生 时 间 发 生 时 间 
时间 Crime)] [医院 名 称 (Hosp)】 。 【化验 检查 (Tes0 ] 
患者 于 1971 年 因 时 有 尿 痛 在 当地 医院 检查 ， 自 述 尿 液 检查 发 现 尿 红细胞 阳性 ， 白 细胞 阳性 ， 其 余 化 验 检查 结果 不 详 ， 诊 断 “ 肾 炎 ”。 


予 “ 链 霉 素 " 静 滴 治 疗 , 后 长 期 间断 口服 中 药 治疗 - 
图 2.5 ”病例 标注 示例 

针对 多 模 态 自动 摘要 方法 研究 , 我 们 标注 了 一 批 包含 文本 、 图 像 、 音 频 和 视频 信息 
在 内 的 多 模 态 自动 摘要 数据 。 不同 于 同步 的 多 模 态 数据 (如 电影 ), 该 数据 集 由 异步 多 模 
态 数据 构成 , 即 图 片 与 文本 中 的 句子 或 者 视频 与 语句 之 间 均 不 构成 一 一 对 应 关系 。 该 数 
据 集 以 中 英文 新 闻 主题 为 中 心 , 围绕 同一 个 主题 有 多 个 新 闻 文 档 、 新 闻 配 图 ， 对 于 每 个 
主题 都 给 出 了 限定 字数 的 中 英文 文本 摘要 。 

在 数据 收集 时 , 我 们 选取 了 近 5 年 的 中 英文 新 闻 主 题 各 25 个 ,如 埃 博 拉 病毒 、 抗 
议 “ 萨 德 ” 反 导 系 统 、 李 娜 澳 网 夺冠 等 。 对 于 每 个 主题 , 我 们 收集 了 同一 个 时 间 段 的 20 
篇 新 闻 文 档 和 5 到 10 段 视频 , 并 确保 收集 到 的 新 闻 文 本 长 度 没有 悬殊 差异 , 文本 一 般 不 
超过 1000 个 汉字 (英文 词 ), 视频 不 超过 2 分 钟 。 其 主要 原因 是 ,如 果 文 本 过 长 或 视频 
过 长 , 会 严重 增 大 人 工 标注 的 难度 , 有 可 能 导致 不 同人 给 出 的 结果 差异 性 太 大 。 

数据 标注 时 ， 我 们 参考 了 文档 理解 会 议 (Document Understanding Conference, 
DUC) 和 文本 分 析 会 议 (Text Analysis Conference, TAC) 的 标注 原则 。 我 们 聘请 了 10 
名 研究 生 进 行 语 料 标 注 , 要 求 他 们 首先 阅读 同一 个 主题 的 新 闻 文 档 和 视频 新 闻 , 然后 独 
立 撰写 摘要 。 撰 写 摘要 的 原则 为 : 确保 摘要 保留 了 新 闻 文 档 和 视频 新 闻 的 重要 信息 
@@ 避 免 摘 要 中 出 现 元 余 信息 ; @@ 具 有 良好 的 可 读 性 ; 四 满足 字数 限制 (中 文摘 要 不 超过 
500 个 汉字 , 英文 摘要 不 超过 300 个 英文 词 )。 

每 个 主题 最 终 保留 三 个 由 不 同 标注 人 独立 撰写 的 摘要 ,作为 参考 答案 。 

目前 大 多 数 自动 摘要 系统 输出 的 文摘 形式 都 是 文本 ,考虑 到 图 文 并 成 的 形式 能 够 更 
好 地 提升 用 户 体验 , 我 们 也 标注 了 由 文本 和 图 片 两 种 模 态 形式 输出 的 摘要 数据 。 标 注 这 
批 数据 时 涉及 文本 摘要 的 撰写 和 图 片 的 选取 两 项 任务 。 关 于 文本 摘要 的 撰写 要 求 与 前 面 
介绍 的 方法 并 没有 什么 不 同 。 为 了 完成 图 片 选取 , 每 个 主题 我 们 邀请 两 名 研究 生 各 自 独 
立地 标注 出 最 重要 的 三 幅 图 片 ， 然 后 让 第 三 位 标注 者 综合 前 两 位 标注 者 给 出 的 结果 选 
出 三 幅 图 片 ， 作 为 最 终 的 标准 答案 。 选取 图 片 的 基本 原则 是 : GD 与 新 闻 的 主题 密切 相关 ; 
@ 与 文本 摘要 的 内 容 密切 相关 。 

上 述 自动 文摘 语 料 已 经 发 布 在 如 下 网 站 上 : http://www.nlpr.ia.ac.cn/cip/dataset.htm, 
有 兴趣 的 读者 可 以 下 载 使 用 。 

综 上 所 述 , 数据 标注 是 一 件 费时 、 费 力 的 事情 , 往往 需要 投入 大 量 的 人 力 和 财力 , K 
此 数据 共享 尤为 重要 。 本 节 介绍 的 方法 和 例子 只 是 众多 文本 数据 挖掘 任务 中 的 基本 做 
法 , 在 具体 系统 实现 时 需要 更 多 详细 的 标注 规范 、 标 准 和 说 明 , 对 于 很 多 复杂 的 标注 任 
务 , 开发 方便 好 用 的 标注 工具 是 标注 大 规模 数据 的 基本 保障 。 
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2.4 基本 工具 


正如 前 面 所 述 , 文本 挖掘 涉及 自然 语言 处 理 、 模 式 分 类 和 机 器 学 习 等 多 种 技术 ， 属 
于 具有 明确 应 用 目标 的 多 技术 交叉 研究 领域 。 无 论 是 前 面 介绍 的 数据 预 处 理 和 数据 样 
本 标注 ,还 是 实现 后 面 介绍 的 某 些 数据 挖掘 方法 ,通常 需要 用 到 很 多 基础 性 的 技术 和 
方法 ， 如 在 文本 表示 时 需要 对 汉语 文本 进行 词语 切 分 、 对 句子 进行 句法 分 析 (syntactic 
parsing)、 词 性 标注 (part-of-speech tagging) 和 语 块 分 析 (chunking) 等 。 以 下 对 部 分 技 
术 方 法 和 工具 做 简要 介绍 。 


2.4.1 ”汉语 自动 分 词 与 词性 标注 


汉语 自动 分 词 的 主要 任务 是 将 汉语 文本 自动 切 分 成 词 序列 。 由 于 词 是 自然 语言 
具有 独立 含义 的 最 小 的 语言 单位 ,而 汉语 文本 中 词 与 词 之 间 有 分 隔 标 记 , 因此 , 词语 切 
分 是 汉语 文本 处 理 的 第 一 步 。 关于 汉语 自动 分 词 方 法 , 国内 外 有 大 量 的 研究 工作 ， 从 
早期 的 基于 词典 的 分 词 方 法 (如 最 大 匹配 方法 、 最 短路 径 分 词 方 法 等 ), 到 基于 nn 元 语 
法 (n-gram) 的 统计 切 分 方法 , 再 到 后 来 的 由 字 构 词 的 汉语 分 词 方法 (character-based 
Chinese word segmentation) 等 ， 人 们 先后 提出 了 数 十 种 切 分 方法 。 其 中 , 由 字 构 词 的 
分 词 方法 是 汉语 分 词 研究 中 一 种 标志 性 的 创新 方法 ， 其 基本 思路 是 : 句子 中 的 任何 一 个 
单位 , 包括 字 、 标 点 、 数字 和 字母 等 (统称 为 “ 字 ”) 在 词 中 的 位 置 只 有 4 种 可 能 : 词 首 
F OEA B) WEF OLA E), HHE ( 记 为 M) 和 单字 词 ( 记 为 S)。B、E、M 和 S 称 
为 词 位 标记 。B 和 也 总 是 成 对 出 现 。 情况 如 下 例子 : 

原始 句子 : 特 朗 普 在 白宫 会 见 安倍 晋三 。 

分 词 结果 : 特 朗 普 / 在 / 白宫 / 会 见 / 安倍 晋三 / 。 

用 词 位 标记 表示 的 分 词 结果 : 特 /B 朗 /M 普 /E {E/S 白 /B 宫 /了 会 /B 见 /B 安 /B 
倍 /M 晋 /M =/E . /S 

这 样 汉语 分 词 问题 转化 为 序列 标注 问题 , 可 以 借助 大 规模 训练 样本 训练 分 类 器 完成 
分 词 任务 。 在 实际 应 用 中 , 人 们 也 尝试 将 这 些 方法 融合 或 集成 起 来 , 如 基于 n-gram 的 生 
成 式 方法 与 由 字 构 词 的 区 分 式 方法 相 结合 [Wang et al., 2012]， 由 字 构 词 的 切 分 方法 与 
神经 网 络 方法 相 结合 等 ， 以 建立 性 能 更 好 的 分 词 系统 。 

词性 标注 是 指 自动 为 句子 中 的 每 个 词 打上 词性 类 别 标签 , 如 句子 “天 空 是 蔚蓝 的 。” 
被 分 词 和 加 注 词性 后 为 : “天 空 /NN 是 /NV 将 蓝 /AA 的 /Aux。/PU”。 符号 NN 是 名 词 
brid, VV 是 动词 标记 , AA 是 形容 词 标记 , Aux 是 结构 助词 标记 , PU 是 标点 符号 的 标 
记 。 词性 标注 是 句法 分 析 的 前 提 和 基础 , 词性 信息 是 文本 表示 的 重要 特征 , 对 于 命名 实 
体 识 别 、 关 系 抽取 和 文本 情感 分 析 等 都 具有 重要 的 帮助 。 

词性 标注 是 一 个 典型 的 序列 标注 问题 , 对 于 汉语 文本 来 说 , 词性 标注 与 自动 分 词 有 
着 密切 的 联系 , 因此, 在 很 多 汉语 自动 分 词 工具 中 都 将 这 两 项 任务 集成 在 一 起 ,甚至 采 
用 一 个 模型 一 体 化 完成 , 如 基于 隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 的 自动 
分 词 方法 。 
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目前 如 下 网 站 提供 汉语 自动 分 词 和 词性 标注 工具 : 
http://ictclas.nlpir.org/ 

https: //github.com/FudanNLP/fnlp 
http://Itp.ai/ 

http: //www.openpr.org.cn 
http://nlp.stanford.edu/software/tagger.shtml 


2.4.2 ”句法 分 析 


句法 分 析 包括 短语 结构 分 析 (constituent parsing 或 phrase structure parsing) 和 依 
存 关 系 分 析 (dependency parsing) 。 短语 结 构 分 析 的 目的 是 自动 分 析出 句子 的 短语 结构 
关系 , 输出 句子 的 句法 结构 树 (syntactic structure tree) 。 依 存 关 系 分 析 的 目的 则 是 自动 
分 析出 句子 中 词汇 之 间 的 语义 依存 关系 。 例 如, 图 2.6 是 句子 “警方 已 经 到 现场 , 正在 详细 
调查 事故 原因 ”的 短语 结构 树 , 图 2.6 中 的 节点 标记 VV、NN、ADVP、NP、VP、PU 分 
别 是 词性 符号 和 短语 标记 。 TP 是 句子 的 根 节点 标记 。 图 2.7 是 该 句子 对 应 的 依存 关系 树 。 


IP 
NP VP 
| -se 
VP PU VP 
ee, S 
ras ADVP ADVP VP 
FAN co 
警方 已 到 现场 ， 正在 详细 调查 原因 


图 2.6 短语 结构 树 示 例 


警察 已 到 现场 ， 正在 ”详细 We 事故 原因 
图 2.7 依存 关系 树 示例 


图 2.7 中 的 箭头 表示 依存 (或 支配 ) 关系 ,箭头 起 始 端 为 支配 词 ， 箭 头 指向 端 为 被 支 
配 词 。 有 向 弧 上 的 标记 表示 依存 关系 的 类 型 ，SBJ 表示 主语 关系 , 即 箭头 指向 端的 词 是 
箭头 起 始 端的 词 的 主语 。OBJ 表示 宾语 关系 , 即 箭头 指向 端的 词 是 箭头 起 始 端的 词 的 
宾语 。VMOD 表示 动词 修饰 关系 ,， 即 箭头 指向 端的 词 修饰 箭头 起 始 端的 动词 。 NMOD 
是 名 词 修饰 关系 , 即 箭头 指向 端的 词 修饰 箭头 起 始 端的 名 词 。ROOT 表示 子 句 的 根 节 
点 , PU 表示 子 句 的 标点 符号 。 
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一 个 句子 的 短语 结构 树 可 以 被 一 一 对 应 地 转换 为 依存 关系 树 ， 转 换 的 基本 思路 是 : 
首先 确定 句子 的 核心 谓词 ， 作 为 句子 的 唯一 根 节点 ， 然 后 定义 中 心 词 抽取 规则 , 抽取 每 
个 短语 的 中 心 词 , 非 中 心 词 受 中 心 词 的 支配 。 

在 自然 语言 处 理 中 , 通常 将 短语 结构 分 析 工 具 称 为 句法 分 析 器 (syntactic parser) ， 
将 依存 关系 分 析 工具 称 为 依存 分 析 器 (dependency parser) 。 

以 下 句法 分 析 器 是 自然 语言 处 理 中 应 用 广泛 的 典型 系统 : 

Berkeley Parser: _ http://nlp.cs.berkeley.edu/Main.html#Parsing 

Stanford Parser: — http://nlp.stanford.edu/downloads/lex-parser.shtml 


Collins Parser: http://people.csail.mit.edu/mcollins/code.html 

Charniak Parser: — http://www.cs.brown.edu/people/ec/#software 

Bikel Parser: http: //www.cis.upenn.edu/~dbikel/software.html#stat-parser 
MaltParser: http: //maltparser.org/index.html 


MINIPAR Parser: http://webdocs.cs.ualberta.ca/~lindek/minipar.htm 
国内 的 一 些 大 学 和 研究 机 构 也 开发 了 相应 的 句法 分 析 器 , 如 : 
http://Itp.ai/ 

https: //github.com/FudanNLP /fnlp 

http://www.openpr.org.cn 


上 面 介绍 的 句法 分 析 器 是 针对 一 个 完整 句子 进行 的 句法 分 析 , 最 终 希 望 获得 句子 完 
整 的 分 析 树 , 所 以 又 称 为 完全 句法 分 析 (full parsing). 在 实际 应 用 中 ,， 有 时 并 不 需要 获 
得 一 个 句子 的 完整 句法 分 析 结 果 , 而 只 需要 识别 出 句子 中 所 包括 的 基本 名 词 短 语 (base 
NP) 或 者 基本 动词 短语 (base VP), 例如 , 句子 “外 资 企 业 在 中 国 经 济 中 也 发 挥 了 重要 作 
用 ”中 包含 基本 名 词 短 语 “ 外 资 企 业 ”“ 中 国 经 济 ”“ 重 要 作用 ”, 包含 基本 动词 短语 “发 
挥 ?。 识 别 句子 中 特定 类 型 短语 的 分 析 技 术 称 为 浅 层 句 法 分 析 (shallow parsing)。 目 前 
使 用 较 多 的 浅 层 句 法 分 析 方 法 类 似 于 由 字 构 词 的 分 词 方法 , 标记 单位 可 以 是 词 , 也 可 以 
是 字 。 词 位 标记 可 以 采用 B, E, M, S 四 种 标记 法 , 也 可 以 采用 B, I O 三 类 标记 法 , 如 
NP-B 表示 基本 名 词 短语 的 首 词 ( 字 ), NP-I 表示 该 词 ( 字 ) 属于 该 名 词 短 语 , NP-O 表 
示 该 词 ( 字 ) 不 属于 该 名 词 短语 。 分 类 器 模型 与 自动 分 词 和 命名 实体 识别 中 的 使 用 方法 
类 似 , 读者 可 参阅 第 9 章 对 命名 实体 识别 方法 的 具体 介绍 。 


2.4.3 n 元 语法 模型 


n JG YA (n-gram) (有 时 也 称 n 元 文法 ) 是 传统 的 语言 模型 (language model, LM)， 
在 自然 语言 处 理 中 发 挥 了 非常 重要 的 作用 ， 其 基本 思想 是 : 对 于 一 个 由 1 (1 为 自然 
数 , 1 >2) 个 基 元 构成 的 字符 串 〈 短 语 、 句 子 或 片段 ) s = ww- -wo 其 概率 可 以 用 如 下 
公式 计算 : 


1 
p(s) = p(w1)p(we lw )p(ws |wwe ) :p(w |wi + wa) = [Pm Jwy---wi1) (2-1) 


i=1 
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这 里 所 说 的 “ 基 元 ”可 以 是 字 、 词 、 标点、 数字 或 构成 句子 的 其 他 任何 符号 , 或 
者 是 短语 、 词 性 标记 等 , 为 了 表述 方便 统称 为 “ 词 ”。 在 公式 OD 中 , 意味 着 产生 第 
i (1 < i < 1) 个 词 的 概率 是 由 前 面 ( 按 文字 的 书写 顺序 “前 面 ”通常 指 左 边 ) 已 经 产生 的 
i 一 1 个 词 ww- wi 决定 的 。 随 着 句子 长 度 的 增加 , 条 件 概率 的 历史 数目 呈 指 数 级 
增长 。 为 了 简化 计算 的 复杂 性 , 假设 当前 词 的 概率 只 与 前 n 一 1 (nm 为 整数 , 1 <n <D 
个 词 有 关 。 于是, A (2.1) 变 为 


l g 
p(s) = [ [pwi lwi +- wir) ~ T] (wi lwi) (2.2) 
= 


it 

当 n=1 时 , 出 现在 第 i 位 上 的 词 wi 的 概率 独立 于 前 面 已 经 出 现 的 词 , 句子 是 由 独立 的 
词 构成 的 序列 , 这 种 计算 模型 通常 称 为 一 元 文法 模型 ， 记 作 unigram, 或 uni-gram, 或 
monogram, 每 个 词 都 是 一 个 一 元 文法 。 当 n = 2 时 ,出 现在 第 i 位 上 的 词 wi 的 概率 只 
与 它 前 面 的 一 个 词 wi_1 AR, 这 种 计算 模型 称 为 二 元 文法 模型 。 两 个 邻近 的 同 现 词 称 
作 二 元 文法 , 记 作 bigram 或 bi-gram。 例如 , 对 于 句子 : We helped her yesterday, W F 
词 序列 : We helped, helped her, her yesterday 都 是 二 元 文法 。 在 这 种 情况 下 , 句子 可 
以 看 作 是 由 二 元 文法 构成 的 序列 链 , 称 作 一 阶 的 马尔 可 夫 链 。 以 此 类 推 , 当 n = 3 时 , 出 
现在 第 i 位 置 上 的 词 wi 的 概率 只 与 它 前 面 的 两 个 词 wiwi AR (i >2), 这 种 计算 
模型 称 为 三 元 文法 模型 。 三 个 邻近 的 同 现 词 构成 的 序列 称 作 三 元 文法 , 记 作 trigram 或 
tri-gram。 由 三 元 文法 构成 的 序列 可 以 看 作 是 2 阶 的 马尔 可 夫 链 , 等 等 。 

在 计算 n 元 语法 模型 时 , 面临 的 一 个 重要 问题 是 如 何 进行 数据 平滑 (date smooth- 
ing), 以 避免 堆 概 率 事件 On 元 语法 ) 带 来 的 问题 。 为 此 , 人 们 先后 提出 了 加 1 法 (additive 
smoothing )、\ 减 值 法 或 称 折扣 法 (discounting), 以 及 删除 插值 法 (deleted interpolation) 
等 若干 数据 平滑 方法 。 同 时 , 为 了 消除 来 自 不 同 领域 、 不 同 主题 和 不 同类 型 的 训练 样本 
对 模型 性 能 产生 的 影响 ,人 们 也 提出 了 若干 语言 模型 自 适应 方法 ,在 此 不 再 一 一 陈述 ， 
有 兴趣 的 读者 可 参阅 [Chen and Goodman, 1998] 和 [ 宗 成 庆 ，2013] 等 。 

下 面 两 个 网 站 都 给 出 了 n 元 语法 模型 的 计算 工具 : 

SRI: — http://www.speech.sri.com/projects/srilm/ 

CMU-Cambridge: _ http://mi.eng.cam.ac.uk/~pre14/toolkit.html 

神经 网 络 语言 模型 (neural network language model, NNLM) 在 近年 来 的 自然 语言 
处 理 中 发 挥 了 重要 作用 。 本 书 第 3 章 将 具体 介绍 这 项 技术 。 


2.5 ”进一步 阅读 


除了 上 面 提 到 的 部 分 自然 语言 处 理 技术 之 外 , 词义 消 歧 (word sense disambiguition, 
WSD) 、 语 义 角 色 标 注 (semantic role labeling, SRL) AIC AAR (textual entailment ) 等 
都 有 可 能 对 文本 数据 挖掘 有 所 帮助 ， 只 是 目前 的 性 能 尚未 达到 较 高 的 水 平 ( 例 如, 对 于 
规范 文本 的 语义 角色 标注 准确 率 只 有 70%~80%)。 相 关 技 术 方 法 在 很 多 自然 语言 处 理 
论著 中 都 有 描述 ,， 有 兴趣 的 读者 可 以 参阅 [Manning and Schütze, 1999]、[Jurafsky and 
Martin, 2000]、[ 宗 成 庆 ，2013] 等 自然 语言 处 理 专 著 , 这 里 不 再 著述 。 


文本 是 由 文字 和 标点 组 成 的 字符 串 。 字 或 字符 组 成 词 、 词 组 或 短语 , 进而 形成 句子 、 
段落 和 篇 章 。 要 使 计算 机 能 够 高 效 处 理 真 实 文本 ,就 必须 找到 一 种 理想 的 形式 化 表示 方 
法 。 这 种 表示 一 方面 要 能 够 真实 地 反映 文档 的 内 容 , 包括 文档 的 主题 、 领 域 、 结 构 和 语义 
等 , 另 一 方面 又 要 对 不 同文 档 有 较 好 的 区 分 能 力 。 

文本 的 本 质 是 由 字符 构成 的 字符 串 。 字符 串 是 无 结构 化 的 数据 , 但 是 字符 串 具有 语 
法 , 通过 语法 组 织 起 来 的 字符 串 背后 隐藏 着 丰富 的 含义 ,这 些 含义 无 法 被 统计 机 器 学 习 
模型 直接 使 用 ,因此 首先 需要 将 真实 的 文本 转化 为 机 器 学 习 算法 易于 处 理 的 表示 形式 。 
统计 学 习 方 法 首先 将 输入 的 文本 进行 形式 化 , 将 其 表示 为 向 量 或 者 其 他 形式 ， 并 基于 形 
式 化 表示 进行 机 器 学 习 模型 的 训练 和 决策 。 这 种 将 文本 进行 形式 化 的 过 程 称 为 文本 表 
示 (text representation) 。 


本 章 主 要 介绍 面向 统计 机 器 学 习 的 文本 表示 方法 。 


3.1 ”向 量 空间 模型 


3.1.1 ”向 量 空间 模型 的 基本 概念 


向 量 空间 模型 (vector space model, VSM) 是 一 种 最 简单 的 文本 表示 方法 。 该 方法 由 
G. Salton 等 人 于 20 世纪 60 年 代 末期 在 信息 检索 领域 中 提出 [Salton et al., 1975], 最 早 
用 于 SMART 信息 检索 系统 中 , 逐渐 成 为 文本 挖掘 中 最 常用 的 一 种 文本 表示 模型 。 

在 具体 介绍 VSM 之 前 , 我 们 首先 给 出 VSM 涉及 的 几 个 基本 概念 。 

o 文本 (text): 指 具 有 一 定 粒度 的 文档 片段 ,如 短语 、 句 子 、 段 落 或 整个 篇 章 。 

o 特征 项 (feature term): Æ VSM 中 最 小 的 不 可 再 分 的 语言 单元 , 可 以 是 字 、 词 、 词 
组 、 短 语 等 。 在 SVM 中 , 一 段 文本 被 看 成 是 由 特征 项 组 成 的 集合 , 表示 为 (titz ,tn)， 
其 中 到 表示 第 i 个 特征 项 。 

。 特征 项 权重 (term weight): 对 于 含有 n 个 特征 项 的 文本 , 每 个 特征 项 t 都 依据 
一 定 的 原则 被 赋予 一 个 权重 w, 表示 它们 在 文本 中 的 重要 性 和 相关 性 。 这样， 一 个 文 
本 就 可 以 用 特征 项 及 其 对 应 的 项 权重 的 集合 表示 : ( :wi,to :2w2,… tn: Wr) HW 


为 : (w, w2, ;Wn)e 
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向 量 空间 模型 假设 文档 符合 以 下 两 条 约定 : OF t 互 异 ( 即 没 有 重复 ); OF t: 
无 先后 顺序 关系 。 RIEA tita ,tn 看 成 是 一 个 n 维 正 交 坐标 系 ， 那么, 一 个 
文本 就 可 以 表示 为 n 维 空间 中 的 一 个 向 量 , 其 坐标 值 为 (wi,tw2,… ,wa)。 通 常 我 们 将 
d= (wi, w2,- ,Wn) 称 为 文本 d 在 向 量 空间 模型 下 的 表示 。 如 图 3.1 所 示 , 文档 dy 和 
dy 分 别 表示 为 向 量 空间 中 的 两 个 n 维 向 量 。 


a 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
Li 


- _ 


图 3.1 向 量 空间 模型 


构建 向 量 空间 模型 的 过 程 需要 解决 两 个 问题 : 一 是 如 何 构造 特征 项 , 二 是 如 何 计算 
特征 项 的 权重 。 


3.1.2 ”特征 项 的 构造 与 权重 


在 基于 向 量 空 间 模型 建立 文本 表示 之 前 , 通常 需要 依据 本 书 第 2 章 所 述 的 词 条 化 、 
去 停 用 词 、 词 形 规范 化 等 预 处 理 技 术 , 对 给 定 文档 进行 规范 和 约 减 , 将 文档 转化 为 词 项 
的 序列 , 然后 定义 文本 表示 的 特征 项 , 特征 项 构造 好 之 后 , 向 量 空间 就 确定 了 , 最 后 通过 
特征 权重 计算 方法 将 每 个 文档 表示 为 向 量 空间 的 一 个 向 量 表示 。 

首先 , 向 量 空间 模型 需要 一 个 特征 项 集合 (th, to, +++ ,tn)。 如 果 使 用 词 作为 特征 项 ， 
特征 项 的 集合 可 以 看 作 是 一 个 词 表 (vocabulary), 此 时 特征 项 也 称 为 词 项 。 这 个 词 表 可 
以 从 语 料 集 中 产生 , 也 可 以 从 外 部 导入 , 我 们 将 其 形象 地 称 为 词 袋 ,向 量 空间 模型 被 称 
作词 袋 模型 (bag-of-words, BOW). 

其 次 , 如何 定义 特征 项 的 权重 (wi,?w2,… ,rwn)。 该 权重 为 向 量 的 每 个 维度 赋予 一 个 
值 。 常见 的 特征 项 权重 包括 下 列 几 种 : 

。 布尔 BOOL) MH: 表示 该 特征 项 是 否 在 当前 文本 中 出 现 , 如 果 出 现 , 则 记 为 1， 
否则 记 为 0。 特征 项 左 在 文档 d 中 的 布尔 权重 记 为 


_ 1， 如 果 在 在 文本 d 中 
bool; = { 0, 否则 (3.1) 
。 特征 频率 (term frequency, TF): 表示 该 特征 项 在 当前 文本 中 出 现 的 次 数 。TF 权 
重 假 设 高 频 特征 包含 的 信息 量 高 于 低频 特征 的 信息 量 , 因此 在 文本 中 出 现 次 数 越 多 的 特 
征 项 ,其 重要 性 越 大 。 通常 用 下 式 表示 : 


3.1 向 量 空间 模型 25 


tf, = N(ti,d) (3.2) 


少数 高 频 词 如 采用 绝对 词 频 权 重 会 远 高 于 平均 权重 ， 这样 并 不 利于 文本 表示 , 为 了 降低 
这 种 影响 , 还 可 以 采用 对 数 词 频 权重 进行 文本 表示 : 


fi = log(tfi + 1) (3.3) 


o 倒 文档 频率 (inverse document frequency, IDF) WE: 文档 频率 (document 
frequency, DF) 表示 语 料 中 包含 特征 项 的 文档 的 数目 。 一 个 特征 项 的 DF 越 高 , 其 包含 
的 有 效 信息 量 往往 越 低 。 IDF 是 反映 特征 项 在 整个 语 料 中 重要 性 的 全 局 性 统计 特征 ， 定 
义 如 下 : 


idf; = log al (3.4) 
i 


其 中 df; 表示 特征 项 t 的 DF 值 ，N 是 语 料 中 的 文档 总 数 。 
o 特征 频率 - 倒 文档 频率 (TF-IDF) 权重 : 定义 为 TF M IDF 的 乘积 


tf_idf; = tf; - idf; (3.5) 


TF-IDF 认为 对 区 别 文 本 最 有 意义 的 特征 项 应 该 是 那些 在 当前 文本 中 出 现 频率 足够 高 ， 
而 在 文本 集合 的 其 他 文本 中 出 现 频率 足够 小 的 词语 。 

在 图 3.2 中 , 我 们 以 词 表 作为 特征 项 并 采用 TF 权重 建立 向 量 空间 模型 ， 对 左 侧 文 
H (“人 工 智能 是 计算 机 科学 的 一 个 分 支 ， 它 企图 生产 出 一 种 能 以 人 类 智能 
相似 的 方式 做 出 反应 的 智能 机 器 ”) 进行 文本 表示 。 词 表 包 括 如 下 词汇 : RA. 4 
ft. AK. AKA. RR. HA. AL. 科学 、 文本 、 人 工 、 计 算 机 等 , 每 个 词汇 左边 对 应 的 
数字 为 该 词汇 在 文档 中 出 现 的 频率 。 


AT BEE HA 

机 科学 的 一 个 发 二 
x EIA 
th BE DL AS 
智能 相似 的 方式 / 
做 出 反应 的 智能 
机 器 。 


图 3.2 基于 特征 频率 的 特征 权重 


3.1.3 ”文本 长 度 规 范 化 


语 料 中 每 个 文本 的 长 度 是 不 一 样 的 ,文本 长 度 对 于 文本 表示 也 会 产生 影响 。 举 一 个 
极端 的 例子 ,将 一 段 文本 进行 两 倍 长 度 的 复制 扩展 , 并 使 用 上 面 提 到 的 TF 权重 进行 文 
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本 表示 , 尽管 扩展 后 的 文本 在 信息 量 上 并 没有 得 到 增加 , 但 新 的 文本 向 量 却 变 成 了 原来 
的 两 倍 。 
因此 , 为 了 消除 或 减少 文本 长 度 对 于 文本 表示 的 影响 , 需要 对 特征 向 量 进行 规范 化 
处 理 , 这 一 过 程 也 称 为 文本 长 度 归 一 化 。 对 于 文本 d = (w, w2, ,wn)， 常见 的 长 度 规 
范 化 处 理 方法 包括 : 

o 1- 范 数 规范 化 


d d 
而 三 一 -三 二 一 3.6 
Tah Ta 
i=1 
SUE AE CE wy +w + 十 wy 一 工 的 超 平面 上 。 
o 2- 范 数 规范 化 F 
Sa 三 一 3.7 
>= Talla ; a 
SU ERE w? + wh + wk 二 1 的 球面 上 。 
。 最 大 记 频 规范 化 2 
Fae (3.8) 


Ia max{wi} 


需要 说 明 的 是 , 与 机 器 学 习 和 模式 识别 任务 中 常见 的 针对 特征 的 去 量 纲 归 一 化 处 理 
不 同 , 文本 表示 中 的 归 一 化 是 针对 样本 的 去 长 度 因素 进行 的 处 理 。 


3.1.4 ”特征 工程 


向 量 空间 模型 假设 空间 中 的 坐标 是 两 两 正 交 的 ， 即 构成 文本 的 特征 项 是 相互 独立 
的 , 与 位 置 或 顺序 无 关 的 。 事 实 上 , 这 样 的 假设 丢失 了 原始 文档 的 词 序 、 句法 和 部 分 语义 
信息 等 , 虽然 在 一 部 分 简单 的 文本 挖掘 任务 上 (如 文本 主题 分 类 ) 这 样 的 假设 往往 还 算 合 
H, 但 是 对 于 很 多 其 他 相对 复杂 的 文本 挖掘 任务 (如 情感 分 析 和 观点 挖掘 )， 表 现 往往 差 
强人 意 。 比 如 , 语义 倾向 性 完全 相反 的 两 个 文本 “John is quicker than Mary” 和 “Mary 
is quicker than John ”在 词 袋 模型 下 的 文本 表示 完全 一 致 , 这 显然 是 不 合理 的 。 
因此 , 依据 任务 的 要 求 , 除了 词 以 外 , 还 可 以 将 特征 项 定义 为 关键 词 、 词组、 短语 
等 , 并 向 词 和 词组 中 加 入 位 置 、 词 性 、 句法 结构 、 语义 等 其 他 信息 。 在 文本 挖 据 任务 中 ， 
这 种 在 向 量 空间 模型 中 加 入 更 多 语言 学 或 其 他 类 型 特征 的 做 法 称 为 特征 工程 feature 
engineering) 。 

常用 的 语言 学 特征 包括 如 下 几 种 。 

(1) n 元 语法 特征 

基本 的 向 量 空间 模型 通常 以 词 作为 特征 项 ， 这 种 方法 丢失 了 词 序 信息 。m 元 语 
法 (n-gram) 以 词组 ( 词 序列 ) 特征 作为 基本 单元 , 可 以 捕 提 一 部 分 词 序 信息 。 以 句子 “我 
强烈 推荐 这 部 电影 ”为 例 , 其 一 元 、 二 元 和 三 元 语法 特征 见 表 3.1。 
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表 3.1 n 元 语法 示例 


语法 模型 我 强烈 推荐 这 部 电影 
一 元 语法 (unigram) (Fe, 强烈 , 推荐 , 这 部 , 电影] 
二 元 语法 (bi-gram) [我 强烈 , 强烈 推荐 , 推荐 这 部 , 这 部 电影 ] 
三 元 语法 (tri-gram) [我 强烈 推荐 , 强烈 推荐 这 部 , 推荐 这 部 电影 ] 


其 中 , 一 元 语法 特征 即 词 项 特征 。 n 元 语法 特征 表示 法 在 文本 分 类 、 文 本 聚 类 等 领 
域 得 到 了 较为 广泛 的 运用 。 但是, n 元 语法 并 不 是 一 种 性 价 比较 高 的 特征 项 , 随 着 n 的 
增 大 , 特征 空间 的 维 数 呈 指 数 级 增长 ,特征 向 量变 得 愈加 稀 昔 , 牺牲 了 统计 质量 , 也 增加 
了 计算 开销 。 同时 , 虽然 元 语法 能 够 体现 邻接 词组 的 关系 , 但 是 它 难以 捕捉 句子 中 距离 
较 远 的 词 和 词 之 间 的 关系 。 要 捕捉 这 种 关系 信息 , 就 要 借助 于 更 深层 次 的 语言 处 理 技术 。 

(2) 句法 特征 

句法 分 析 是 自然 语言 处 理 的 重要 手段 之 一 ， 其 基本 任务 是 确定 句子 的 句法 结构 。 它 
E 够 提供 句子 的 句法 信息 ,为 后 续 的 自然 语言 处 理 任务 提供 帮助 。 其中, 依存 关系 分 析 
是 句法 分 析 的 一 个 重要 分 支 , 它 用 词 和 词 之 间 的 依存 关系 描述 语言 结构 [ 宗 成 庆 ，2013]。 
作为 一 种 结构 化 的 文本 表示 ， 一 棵 依存 关系 树 以 词 为 节点 ， 用 节点 之 间 的 指向 关系 表述 词 
之 间 的 支配 和 被 支配 关系 。 上 述 示例 “我 强烈 推荐 这 部 电影 ”的 依存 关系 树 如 图 3.3 所 示 。 


p 
SUB OBJ 


VMOD NMOD 


我 强烈 推荐 这 部 电影 
PRP RB VBP DT NN 
图 3.3 ”依存 关系 树 示 例 


在 向 量 空间 模型 中 , 一 种 简单 的 依存 关系 特征 抽取 方法 是 抽取 相互 依存 的 词 对 作为 
特征 项 , 例如 ， 上 述 例句 中 的 “推荐 电影 ”。 这 样 一 来 ,“ 推 荐 ” 和 “电影 ”这 种 远 距离 依存 
关系 就 可 以 捕捉 到 了 。 

(3) 语义 知识 库 特 征 

一 词 多 义 、 一 义 多 词 是 自然 语言 中 普遍 存在 的 现象 。 识 别 两 个 单词 是 否 表达 同一 个 
含义 ,或 者 判别 多 义 词 在 文档 中 的 具体 含义 ， 对 于 自然 语言 处 理 来 说 十 分 重要 。 借 助 额 
外 的 语义 知识 库 (如 英文 的 WordNet、 中 文 的 知 网 HowNet 等 ), 利用 词语 在 知识 库 中 定 
义 的 语义 概念 等 信息 ， 作 为 词语 的 蔡 代 或 者 补充 ， 可 以 在 一 定 程度 上 解决 歧义 性 和 多 样 
性 给 特征 向 量 带 来 的 噪声 问题 , 提高 文本 表示 的 性 能 。 


3.1.5 ”其 他 文本 表示 方法 


除了 用 传统 的 向 量 空间 模型 表示 文本 和 实现 特征 工程 以 外 , 还 有 一 类 分 布 式 文本 表示 
方法 。 与 高 维 稀 朴 的 向 量 空间 模型 不 同 ， 分 布 式 表示 方法 通过 建立 主题 模型 或 表示 学 习 模 
型 , 实现 文本 的 低 维 稠密 表示 。 其 代表 性 的 方法 包括 文本 概念 表示 和 文本 深度 表示 。 
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(1) 文本 概念 表示 

传统 的 向 量 空间 模型 是 一 种 显 式 的 文本 表示 方法 ,无 法 深入 捕获 文本 中 隐 含 
的 语义 关系 。 以 潜在 语义 分 析 (latent semantic analysis, LSA) 、 概 率 潜 在 语义 分 
析 (probabilistic latent semantic analysis, PLSA) 和 潜在 狄 利 克 雷 分 布 (latent Dirich- 
let allocation, LDA) 为 代表 的 主题 模型 ， 旨 在 挖掘 文本 中 隐 含 的 主题 (topic) 或 概 
念 (concept), 可 以 较 好 地 捕获 多 义 性 (polysems) 和 同 义 性 (synonymys)， 从 而 部 分 地 
解决 一 词 多 义 和 一 义 多 词 问 题 同时 , 主题 提供 了 一 种 高 维 文本 数据 维 数 的 约 减 方法 ， 
将 传统 的 向 量 空间 模型 中 的 高 维 稀疏 向 量 转化 为 低 维 稠密 向 量 ， 以 缓解 维 数 灾难 问题 ， 
为 文本 表示 提供 了 一 种 新 的 思路 。 本 书 将 在 第 6 章 专门 介绍 文本 主题 模型 和 基于 主题 模 
型 的 文本 概念 表示 。 

(2) 文本 深度 表示 

文本 表示 学 习 的 目标 是 通过 机 器 学 习 方法 , 学 习 得 到 文本 不 同 粒度 单元 的 低 维 稠密 
向 量 。 近年 来 , 随 着 计算 机 计算 能 力 的 提升 , 基于 人 工 神经 网 络 的 深度 学 习 方法 在 自然 
语言 处 理 中 获得 了 很 大 的 成 功 , 涌现 出 了 一 系列 基于 深度 学 习 的 文本 分 布 式 表 示 方 法 。 
与 传统 的 向 量 空 间 表 示 方 法 相 比 ,分布 式 表示 的 向 量 维度 较 低 ， 可 有 效 缓解 数据 稀 玻 问 
题 , 从 而 提高 计算 效率 。 同时, 表示 学 习 方 法 在 构造 文本 表示 的 过 程 中 , 可 充分 捕捉 文本 
对 象 的 语义 信息 和 其 他 深度 信息 , 避免 了 传统 向 量 空间 模型 所 需 的 复杂 特征 工程 , TEW 
多 文本 挖掘 任务 中 取得 了 高 效 的 性 能 。 在 本 书后 面 的 章节 里 将 对 文本 深度 表示 方法 及 其 
在 不 同文 本 挖掘 任务 中 的 应 用 方法 分 别 进行 介绍 。 

另外 需要 说 明 的 是 , 文本 表示 的 目的 是 构造 适合 自然 语言 处 理 任 务 的 文本 表示 形 
式 。 对 于 不 同 的 任务 ,文本 表示 的 侧重 点 也 有 所 不 同 。 如 针对 文本 情感 分 类 任务 的 文本 
表示 , 需要 在 向 量 空 间 构 造 或 表示 学 习 过 程 中 体现 较 多 的 文本 情感 属性 , 而 在 面向 话题 
检测 和 跟踪 任务 中 的 文本 表示 则 需 更 多 地 体现 事件 描述 信息 等 。 因此 , 文本 表示 往往 是 
任务 相关 的 。 面 向 不 同 的 任务 , 不 存在 一 种 好 而 全 的 文本 表示 方法 。 在 评价 文本 表示 方 
法 的 优 和 劣 时 , 也 需要 结合 不 同 任务 的 特点 , 分 别 进行 , 酌情 而 定 。 

在 文本 分 类 和 情感 分 析 等 文本 数据 挖掘 任务 中 , 词 袋 模型 是 最 流行 的 文本 表示 方 
Yeo 正如 前 面 所 述 , 词 袋 模型 将 每 个 文本 视 为 一 个 词语 的 集合 , 集合 的 大 小 由 所 有 文本 
统计 出 的 词 表 规 模 决 定 , 集合 中 的 每 个 元 素 表 示 某 个 特定 词语 是 否 在 当前 文本 中 出 现 ， 
或 者 表示 该 特定 词语 在 当前 文本 中 的 统计 权重 。 可见, 是 否 出 现 或 者 出 现 的 权重 都 是 依 
据 词 语 本 身 的 字符 串 匹 配 进 行 统计 得 出 的 , 因此 , 词语 本 身 的 离散 符号 表示 是 词 袋 模型 
的 基础 。 而 词语 的 离散 符号 表示 等 价 于 词 的 独 热 表 示 (one-hot representation) ， 即 每 个 
词语 利用 一 个 布尔 向 量 表示 ,向 量 维度 为 词 表 规模 ， 其 中 只 有 当前 词语 对 应 的 位 置 处 为 
1， 其 余 位 置 都 是 0。 例如 , 假设 文本 分 类 的 训练 样本 中 统计 出 5 万 个 不 同 的 词汇 , 那么 
5 万 就 是 词 表 的 规模 。 我 们 可 以 依据 词语 在 训练 样本 中 的 出 现 顺 序 为 所 有 词语 进行 编号 ， 
例如 词汇 “文本 ”出 现在 第 一 个 位 置 上 ,“ 挖 据 ” 出 现在 最 后 一 个 位 置 上 ,那么 “文本 ” 
和 “挖掘 ” 两 个 词汇 的 编号 分 别 是 1 和 50000。 每 个 词语 对 应 唯一 的 编号 , 那么 , 一 个 词 
语 就 对 应 一 个 5 万 维 的 向 量 。 例如 , “文本 ”对 应 [1, 0, 0, ---, 0], 即 除了 第 一 个 位 置 为 
1, 其 余 的 49999 个 位 置 都 是 0。 
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这 种 表示 方法 存在 两 个 潜在 的 问题 : 一 是 基于 0、1 的 离散 符号 匹配 方法 容易 产生 数 
据 稀 朴 问题 ; 二 是 任意 两 个 词语 在 独 热 表 示 方 法 中 都 是 相互 独立 的 , 即 无 法 捕捉 词语 之 
间 的 语义 相似 性 。 近 年 来 , 在 低 维 连续 的 语义 向 量 空间 中 学 习 文 本 的 分 布 式 表示 逐渐 成 
为 研究 热点 ， 并 在 情感 分 析 和 标题 生成 等 文本 挖掘 任务 中 超越 传统 的 词 袋 模型 ， 取 得 了 
当前 最 佳 的 性 能 。 下 面 我 们 将 从 词语 、 短语、 句子 到 文档 , 分 别 介 绍 分 布 式 表示 的 学 习 
方法 。 
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词 是 具有 独立 含义 的 最 小 的 语言 单位 ， 是 短语、 句子 和 文档 的 基本 组 成 单元 。 传 统 
的 独 热 表示 方法 无 法 刻画 词语 的 语法 和 语义 信息 ， 那么， 如何 将 语法 和 语义 信息 编码 在 
词语 的 表示 中 , 成 为 研究 者 关注 的 重点 。Harris 和 Firth 分 别 于 1954 年 和 1957 年 提出 
并 明确 了 词语 的 分 布 式 假说 : 一 个 词 的 语义 由 其 上 下 文 决 定 , 即 上 下 文 相似 的 词语 ， 其 
语义 也 相似 [Harris, 1954; Firth, 1957]。 顾名思义 ， 如 果 掌 握 了 一 个 词 所 有 的 上 下 文 信 
息 , 那么 也 就 掌握 了 这 个 词 的 语义 。 因 此 , 语 料 资源 越 丰富 , 获得 的 分 布 式 表示 越 能 够 刻 
画 词 的 语义 信息 。20 世纪 90 年 代 以 来 , 随 着 统计 方法 的 逐渐 兴起 和 语 料 规模 的 快速 扩 
K, 如何 学 习 词 的 分 布 式 表示 问题 受到 了 越 来 越 多 的 关注 。 简单 地 说 , 分 布 式 表 示 学 习 
的 核心 思想 就 是 利用 低 维 连续 的 实数 向 量 表 示 一 个 词语 , 使 得 语义 相近 的 词 在 实数 向 量 
空间 中 也 临近 。 本 小 节 着 重 介 绍 几 种 典型 的 词 的 分 布 式 表示 方法 。 

分 布 式 假 说 表明 词语 表示 的 质量 很 大 程度 上 取决 于 对 上 下 文 信息 的 建 模 。 在 基于 算 
阵 分 解 的 分 布 式 表 示 方 法 中 , 最 常用 的 上 下 文 是 固定 窗口 中 的 词语 集合 , 很 难 利用 更 加 
复杂 的 上 下 文 信息 。 例如 ,车 采用 窗口 内 的 nn 元 语法 (n-gram) 作为 上 下 文 , n-gram 数 
日 将 会 随 着 n 的 增加 呈 指 数 级 增长 , 数据 稀 玖 和 维 数 灾难 问题 将 不 可 避免 。 神 经 网 络 模 
型 实质 上 是 由 一 系列 线性 组 合 和 非 线性 变换 等 简单 操作 构成 , 理论 上 可 以 模拟 任意 函 
数 , 因此 , 可 以 对 复杂 的 上 下 文通 过 简单 的 神经 网 络 结构 进行 建 模 ， 从 而 使 得 词语 的 分 
布 式 表示 能 够 捕捉 更 多 的 句法 和 语义 信息 。 

不 同 于 矩阵 分 解 方法 中 的 文档 集合 表示 , 神经 网 络 模型 中 的 训练 数据 都 以 句子 集合 
的 形式 表示 : D= {wr} Heb, m 表示 第 i 个 句子 包含 的 词语 数目 , wE 表示 该 句 
子 的 词 序列 wi wi … mis 统计 训练 数据 集 D 中 出 现 的 词语 , 可 以 得 到 一 个 词汇 表 
Vi, 假设 每 个 词语 映射 到 一 个 d 维 2 的 分 布 式 向 量 (通常 称 为 词 向 量 ), 那么 词汇 表 V 对 
应 一 个 词 向 量 和 矩阵 工 e RIV, 神经 网 络 模型 的 目标 在 于 如 何 优化 词 向 量 矩 阵 五 ,为 每 
个 词语 学 习 准 确 的 分 布 式 向 量 表 示 。 以 下 介绍 几 种 常用 的 神经 网 络 模型 。 


3.2.1 ”神经 网 络 语言 模型 
在 神经 网 络 模型 中 , 词 向 量 表 示 最 初 用 于 神经 网 络 语言 模型 的 学 习 过 程 。 语言 模型 


1 一 般 根据 词 频 对 词汇 表 进行 限制 , 例如 保留 词 频 大 于 某 个 阔 值 的 所 有 词语 , 或 者 保留 词 频 最 高 的 [V | 个 词 。 
?4 是 一 个 经 验 值 , 与 具体 应 用 有 关 , 一 般 选 取 几 十 、 几 百 或 者 一 千 左右 。 
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是 用 来 计算 一 段 文本 的 出 现 概率 , 度量 该 文本 的 流畅 程度 。 给 定 m 个 词语 构成 的 句子 
W W2 > wm 其 出 现 的 可 能 性 可 通过 链 式 规则 计算 : 


P (wiwa wm) = P (w1) P (wa|w1) -- 已 (oil ++ , wi—1) (om ,Wm-1) 
(3.9) 
在 传统 语言 模型 建 模 过 程 中 , 通常 基于 相对 频率 的 最 大 似 然 估计 方法 估计 条 件 概 率 
P (wiwi, -+> ,wi-1): 


count (w1, +- , wi) 
Ph a 3.10 
(w;lwi, +++, wi-1) E E (3.10) 


由 于 i BOK, 词组 ww,… ,wi 出 现 的 可 能 性 越 小 , 最 大 似 然 估 计 越 不 准确 。 因此, 典 
型 的 解决 方案 是 采用 (n 一 1) 阶 马尔 可 夫 链 对 语言 模型 进行 建 模 ( 即 n 元 语言 模型 ), 假 
设 当 前 词 的 出 现 概率 仅 依 赖 于 前 (n — 1) 个 词 : 


P (wijwi,: ,wi-1) © P (wilwint, ,Wi-1) (3.11) 


若 n = 1， 表 示 一 元 语言 模型 (unigram)， 假 设 词 语 之 间 是 相互 独立 的 ; n = 2 表示 二 元 
语言 模型 (bigram)， 当 前 词 的 出 现 概率 与 前 一 个 词 有 关 。m = 38. n= 4 Aln =5 是 使 用 
最 广泛 的 几 种 n 元 语言 模型 。 这 种 近似 方法 使 得 词 序列 的 语言 模型 概率 计算 成 为 可 能 。 但 
是 ， 基 于 词 、 词 组 等 离散 符号 匹配 的 概率 估计 方法 仍然 面临 严重 的 数据 稀疏 问题 ， 并 且 无 
法 捕捉 词语 之 间 的 语义 相似 性 。 例 如 ,两 个 二 元 词组 “很 无 了 获 ” 和 “很 枯燥 ”的 语义 非常 相 
近 , P (无 聊 | 很 ) 与 已 (枯燥 | 很 ) 的 概率 应 该 非常 接近 , 但 实际 上 这 两 个 二 元 词组 在 数 
据 中 的 频率 可 能 差别 悬殊 ， 导 致 两 个 概率 已 (无聊 | 很 ) 与 已 (枯燥 | 很 ) 的 差别 也 较 大 。 
Bengio 等 人 提出 了 一 种 基于 前 馈 神经 网 络 (feed-forward neural network, FNN) 的 
语言 模型 [Bengio et al., 2003], 其 基本 思路 是 : 将 每 个 词 映 射 为 一 个 低 维 连续 的 实数 向 
量 ( 即 词 向 量 ), 并 在 连续 向 量 空间 中 对 n 元 语言 模型 的 概率 已 (uilwi n+ e ,wi-1) HE 
行 建 模 。 图 3.4 (a) 展示 了 一 个 三 层 的 前 馈 神经 网 络 语言 模型 。 首先 , 历史 信息 的 (n — 1) 
个 词 被 映射 为 词 向 量 ， 并 被 拼接 后 得 到 ho: 
ho = [e (wi-n41); ++: ;e (wi-1)] (3.12) 
其 中 , e (wi_1) € Ri 表示 词语 wi_1 对 应 的 d 维 词 向 量 , BY RR ied EE € 
RIVI<4 获得 。ho 通过 非 线性 隐藏 层 学 习 (n 一 1) 个 词 的 抽象 表示 : 
hı = f (U' x ho +b") (3.13) 
hy = f (U? x hy +?) (3.14) 
其 中 , 非 线性 激活 函数 可 选择 f (+) =tanh(-). 最后, 利用 softmax 函数 计算 词 表 中 
每 个 词 的 概率 分 布 : 
exp {h2: e (wi)} 
Ivi 
S~ exp {ha -e (w)} 


k=1 


P (wiļWwi-n41,: , Wi) = (3.15) 


+ 词 向 量 矩 阵 L 一 般 可 随机 地 进行 初始 化 , 并 在 模型 训练 过 程 中 作为 参数 进行 优化 。 
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上 述 公 式 中 , 权重 矩阵 UT, U?, bt, b? Allin] AEE L 都 视 为 神经 网 络 的 参数 9。 训练 
过 程 便 是 优化 参数 9, 使 得 整个 训练 数据 上 的 对 数 似 然 值 最 大 : 
M 
= aenar heP (wr) (3.16) 
语言 模型 训练 结束 后 ， 就 得 到 了 优化 后 的 词 向 量 和 矩阵 L*, 它 包含 了 词 表 V 中 所 有 词语 
的 分 布 式 向 量 表示 。 本 书 中 的 对 数 均 以 2 为 底 , 不 再 作 特 殊 说 明 。 


POW; | Wins Wi-2 Wi) 
Softmax( 
eee) 元 piw lwo) Poem) pw | wo) 
Ti: wo =(s) Wi w2 Wet Wi 
tanh(Uixhotb!) h 
m N: 
4 j 
Wi-n+1 Wi-2 Wie ho hy hy hi hi 
(a) 前 馈 神 经 网 络 语言 模型 (b) 循环 神经 网 络 语言 模型 


图 3.4 神经 网 络 语言 模型 示意 图 
由 于 前 馈 神经 网 络 语言 模型 仅 能 对 固定 窗口 的 上 下 文 进行 建 模 , 无 法 捕捉 长 距离 的 
上 下 文 依赖 关系 ，Mikolov 等 人 便 提 出 了 采用 循环 神经 网 络 (recurrent neural network, 
RNN) 直接 对 概率 P (wiwi, ,wi-_1) 进行 建 模 的 思路 [Mikolov et al., 2010], SF] 
用 所 有 的 历史 信息 wi,… ,wi_1 预测 当前 词 wi 的 出 现 概率 。 循环 神经 网 络 的 核心 要 点 
在 于 计算 每 一 时 刻 的 隐藏 层 表示 hi: 
hi = f (We (wi1) + Uhi_1 +b) (3.17) 


其 中 , 第 i 一 1(i > 2) 时 刻 的 隐藏 层 表示 hi BAIA O 时 刻 到 (i 一 1) 时 刻 的 历史 信 
息 (第 0 时 刻 的 历史 信息 通常 设置 为 空 , 即 ho = 0). f(e) 为 非 线 性 激活 函数 ,可 取 
fj (+) =tanh(-). 在 第 i 时 刻 隐藏 层 表示 hi 的 基础 上 , 可 直接 采用 softmax 函数 计算 
下 一 个 词 wi 的 出 现 概率 P (wiw, ,wi-1)。 神 经 网 络 参数 和 词 向 量 和 矩阵 的 优化 方法 
与 前 馈 神经 网 络 方法 类 似 , 都 是 最 大 化 训练 数据 的 对 数 似 然 。 

为 了 更 加 深入 地 刻画 隐藏 层 Chii 和 hi) 之 间 的 信息 传递 方式 , 并 有 效 编码 长 距离 
的 历史 信息 , fO) 可 通过 长 短 时 记忆 单元 (long-short term memory, LSTM) [Hochreiter 
and Schmidhuber, 1997]( 如 图 3.5 (a) 所 示 ) 或 门限 循环 单元 (gated recurrent unit, 
GRU) (如 图 3.5 Cb) 所 示 ) [Cho et al., 2014] 实现 。 无 论 是 LSTM 还 是 GRU, 输入 都 
是 前 一 时 刻 的 隐藏 层 表示 hi 和 前 一 时 刻 的 输出 wii 输出 都 是 当前 时 刻 的 隐藏 层 表 
示 his 


1 图 3.5 (a) 所 示 , LSTM 由 三 个 门 (gate) 和 一 个 存储 记忆 单元 控制 , 具体 计算 方 
式 如 下 : 


ii = 0 (Wie(wi1)+ Uihi1+ Vici_1 + bi) (3.18) 
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fi = o (Wye (wi_1) + Ushi_y + Veei_s + by) (3.19) 
oi = o (Woe (wi-1) + Uohi-1 + Voei-1 + bo) (3.20) 
či = tanh (Wee (wi_1) + U-hi_1 + bi) (3.21) 
ci = fi0GittOoOG (3.22) 
hi = 0; © tanh (ci) (3.23) 


其 中 ,0 (2) = paar io Fi 和 ot SPLAT BREST TRIM. c 表示 记忆 单 


元 。LSTM 希望 通过 输入 门 、 遗 忘 门 和 输出 门 控制 如 何 有 选择 地 编码 历史 信息 和 当前 信息 。 


Te 
7 Č 
ry 
oJ IN 
o 
—— OUT 
(a) LSTM 神 经 单元 (b) GRU 神 经 单元 


图 3.5 LSTM 和 GRU 神经 单元 示意 图 


如 图 3.5 (b) Bras, GRU 计算 单元 是 对 LSTM 的 一 种 简化 ,省 去 了 记忆 单元 的 
计算 : 


ri = o (W,e (wi_1) + U-hi_1 + br) (3.24) 
zi = 0 (We (wi-1) + Uzhi_i + bz) (3.25) 
ħi = tanh (We (w;_1) + U (ri © hi_1) + b) (3.26) 
hy = 2%, Oh, + (1-2) Oia (3.27) 


其 中 , ri 和 zi; 分 别 表示 重 置 门 和 更 新 门 。LSTM 和 GRU 可 以 有 效 地 捕捉 长 距离 的 语义 
依赖 关系 , 在 文本 摘要 和 信息 抽取 等 很 多 序列 预测 的 文本 挖掘 任务 中 都 体现 出 更 优 的 性 
能 [Nallapati et al., 2016; See et al., 2017]. 


3.2.2 C&W 模型 


在 神经 网 络 语言 模型 中 , 词 向 量 的 表示 学 习 只 是 一 个 副产品 ， 并 不 是 核心 任务 。 
Collobert 和 Weston 于 2008 年 提出 了 一 种 模型 ， 直 接 以 学 习 和 优化 词 向 量 为 最 终 目标 ， 
这 种 模型 以 两 位 学 者 的 姓氏 首 字母 命名 , BRA C&W 模型 [Collobert and Weston, 2008]. 

神经 网 络 语言 模型 的 目标 在 于 准确 估计 条 件 概率 P (wiw, = ,wi_1)， 因 此 每 一 
时 刻 都 需要 利用 隐藏 层 到 输出 层 的 矩阵 运算 和 softmax 函数 计算 整个 词汇 表 的 概率 分 
Ai, 计算 复杂 度 为 O(|h| x |V) 其 中 |h| 是 最 高 隐藏 层 的 神经 元 数目 (通常 为 几 百 或 
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FEAA), V| 是 词 表 规 模 (通常 为 几 万 至 十 万 左右 )。 这 个 矩阵 运算 操作 极 大 地 降 
低 了 模型 的 训练 效率 。Collobert 和 Weston 认为 ， 如 果 目 标 只 是 学 习 词 向 量 ， 则 没有 
必要 采用 语言 模型 的 方式 , 而 可 以 直接 从 分 布 式 假说 的 角度 设计 模型 和 目标 函数 : 给 
定 训练 语 料 中 任意 一 个 nn 元 组 (n= 2C +1) (wi, C) = wic: Wi-1WiWiy Witce 
如 果 将 中 心 词 wi 随机 地 替换 为 词 表 中 的 其 他 词 wp, 得 到 一 个 新 的 nn 元 组 (w, C) = 
Wi-c Willoi1 Wipo ABA, (wi, C) 一 定 比 (w, C) 更 加 合理 。 如 果 对 每 个 元 
组 进行 打分 , 那么 (wi C) 得 分 一 定 比 (w, C) 高 , 即 : 

s(w;,C) > s (wi, C) (3.28) 


如 图 3.6 所 示 , 简单 的 前 馈 神 经 网 络 模型 只 需要 计算 n 元 组 的 得 分 , 并 从 得 分 能 够 
区 分 输入 的 n 元 组 是 来 自 于 真实 的 训练 文本 , 还 是 随机 生成 的 文本 。 我们 将 真实 训练 文 
本 中 的 元 组 (wi, C) 称 为 正 样本 , 随机 生成 的 n 元 组 (w, C) 称 为 负 样本 。 


right or random 


wil 
Wiec Wil random Wi Wac 


图 3.6 C&W 模型 示意 图 


为 了 计算 s (wi, C), 首先 将 wi-c +++ wi- wi wiy … wipo 中 的 每 个 词 从 词 向 量 
HEBEL 中 获得 对 应 的 词 向 量 , 并 进行 拼接 , 得 到 第 一 层 表 示 ho: 


ho = [e (wi_c) 3 +++ ;e (wi1);e (wi) se (wiz1); +: ;e (wirc)] (3.29) 
ho 经 过 隐藏 层 得 到 hi: 
hy = f (Woho + bo) (3.30) 
其 中 , f (+) 为 非 线 性 激活 函数 。jai 再 经 过 线性 变换 ， 得 到 元 组 (w, C) 的 得 分 : 
8 (,C) = Wiki +b (3.31) 


其 中 , Wi e Ri**l, By € R! TJI C&W 模型 由 隐藏 层 到 输出 层 的 矩阵 运算 非常 简单 ， 
将 计算 复杂 度 由 神经 网 络 语言 模型 的 O(|h| x [V |) 降低 至 O (|h|), 可 以 高 效 地 学 习 词 向 

量 表 示 。 
在 词 向 量 优化 过 程 中 , C&W 模型 希望 每 一 个 正 样本 的 打分 比 对 应 负 样 本 的 打分 高 

1 分 , 即 : 

s(wi,C) > s(wi,C)+1 (3.32) 
对 于 整个 训练 语 料 ，C&W BUT HE TE BEE n 元 组 ,并 最 小 化 如 下 的 目 

标 函 数 : 
SS J max (0,14 s (wi, C) — s (wi, C)) (3.33) 


(wi,C)ED wEV 
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3.2.3 CBOW 与 Skip-gram 模型 


无 论 采 用 神经 网 络 语言 模型 还 是 C&W 模型， 隐藏 层 都 是 不 可 或 缺 的 ， 而 输入 层 到 
隐藏 层 的 矩阵 运算 也 是 高 额 时 间 开 销 的 关键 部 分 。 为 了 进一步 简化 神经 网 络 结构 ， 更 加 
高 效 地 学 习 词 癌 量 表示 ，Mikolov 等 人 在 2013 年 提出 了 两 种 不 含 隐藏 层 的 神经 网 络 模 
型 : CBOW 模型 (continuous bag-of-words model) 和 Skip-gram 模型 [Mikolov et al., 
2013a]. 


1. CBOW 模型 


如 图 3.7 Pras, CBOW 模型 的 思想 类 似 于 C&W 模型 : 输入 上 下 文 词 语 ， 预 测 中 
心目 标 词语 。 不 同 于 C&W 模型 ，CBOW 模型 仍然 以 目标 词 的 概率 为 优化 目标 , 而 且 
CBOW 模型 在 网 络 结构 设计 上 做 了 两 点 简化 : 一 方面 , 输入 层 不 再 是 上 下 文 词 对 应 词 向 
量 的 拼接 , 而 是 忽略 词 序 信息 , 直接 采用 所 有 词 向 量 的 平均 值 ; 另 一 方面 , 省略 隐 藏 层 ， 
输入 层 直接 与 输出 层 连接 , 采用 Logistic 回归 (Logistic regression) 的 形式 计算 中 心目 
标 词 的 概率 。 


POW, | Woo" WAWirC) 


ID … o --- m 


人 


W-c Wia Wa Wise 


图 3.7 CBOW 模型 示意 图 


形式 化 地 ， 给 定 训练 语 料 中 任意 一 个 nn 元 组 (n = 2C + 1) (wC) = 
Wi-c Oil WU 将 WC = wic- wiwi witc 作为 输入 , 计算 上 下 
文 词 的 平均 词 向 量 : 


1 


= 2 (we) (3.34) 
i—CSkSitC, kAi 


h 直接 作为 上 下 文 的 语义 表示 预测 中 心目 标 词 wi 的 概率 : 
P(wwe) = AP thre lwo} (3.35) 
> exp {he (we)} 
k=] 
在 CBOW 模型 中 , 词 向 量 工 是 唯一 的 神经 网 络 参数 。 对 于 整个 训练 语 料 , CBOW 
模型 优化 词 向 量 矩 阵 工 以 最 大 化 所 有 词 的 对 数 似 然 : 


L* = argmax logP (w;|WC 
gmax > logP (wi|WC) 


wieV 
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2. Skip-gram 模型 


与 CBOW 模型 利用 上 下 文 词 预测 中 心 词 的 做 法 不 同 ，Skip-gram 模型 采用 了 相反 
的 过 程 , 即 用 中 心 词 预 测 所 有 上 下 文 词 。 图 3.8 展示 了 Skip-gram 模型 的 基本 思想 。 


p(wic |W) POW | Wi) POM | wi) POV sc | wi) 


i 


W; 


图 3.8 Skip-gram 模型 示意 图 


给 定 训练 语 料 中 任意 一 个 nn 元 组 (wi, C) = wio Wi_1 Wiig witc: Skip-gram 
模型 直接 利用 中 心 词 wi 的 词 向 量 e (wi) 预测 上 下 文 WC = wic: wi-1wi4i +: Wite 
中 每 个 词 we 的 概率 : 

exp {e (wi) + e (we)} 
Ivi 
> exp {e (wi) -e (we)} 
k=l 

Skip-gram 模型 的 目标 函数 与 CBOW 模型 的 目标 函数 类 似 ， 都 是 优化 词 向 量 矩 阵 
工 以 最 大 化 所 有 上 下 文 词 的 对 数 似 然 : 


i ge argar D > logP (we|wi) (3.37) 
wieV wceEWC 


P (welwi) 


(3.36) 


3.2.4 噪声 对 比 估计 与 负 采 样 


CBOW 模型 和 Skip-gram 模型 虽然 极 大 地 简化 了 神经 网 络 结构 , 但 是 仍然 需要 利 
用 softmax 函数 计算 词汇 表 V 中 所 有 词 的 概率 分 布 。 为 了 加 速 神经 网 络 模型 的 训练 效 
率 ，Mikolov 等 人 受 C&W 模型 和 噪声 对 比 估 计 (noise contrastive estimation, NCE) 方 
法 的 启发 ， 提 出 了 负 采 样 (negative sampling, NEG) 技术 [Mikolov et al., 2013b]。 

以 Skip-gram 模型 为 例 , 通过 中 心 词 wi HE FX WO = wio WiiWii Wit 
中 的 任意 词 we， 负 采样 技术 和 噪声 对 比 估计 方法 都 是 为 每 个 正 样本 we 从 某 个 概率 分 布 
Dn (w) 中 选择 KK 个 负 样 本 {w w, ,wk}， 并 最 大 化 正 样本 的 似 然 , 同时 最 小 化 所 有 
负 样 本 的 似 然 。 

对 于 一 个 正 样本 we Al K 个 负 样 本 {ww ,zk}， 噪 声 对 比 估计 方法 首先 对 
K +1 个 样本 的 概率 进行 归 一 化 : 


p(l=1,w|w;) = p(l = 1)p(wvl= 1,w:i) 


= gr (wl) (3:38) 
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PU=0uwloi = p (l = 0) p (wll = 0, w) 


i Pn (w) (3.39) 


p(l = 1, wļw:) 
p(l =0, w|w;) + p(l = 1, w|wi) 


>i 


p(l = 1lw, wi) 


2 po (w|wi) 
= po olur) + Kpa (W) (30) 
p(l = 0, w|wi) 

p(l = 0, w|wi) +p (l= 1, w|wi) 
z Kpn (w) 

po (w\wi) + Kpn (w) 
其 中 , w 表示 某 个 样本 ，! = 1 表示 该 样本 来 自 于 正 样本 , 服从 神经 网 络 模型 的 概率 输 
出 1pe (w|WC), 1 = 0 表示 该 样本 来 自 于 负 样 本 ， 服 从 噪声 样本 生成 的 概率 分 布 pa (w)。 
噪声 对 比 估计 的 目标 函数 如 下 : 


p(l=O0|w, wi) 


(3.41) 


K 
J (0) = log p (L= 1we,wi) + > log p (I = O|we, wi) (3.42) 
k=1 
负 采 样 技术 的 目标 函数 与 噪声 对 比 估计 相同 ,但 不 同 于 噪声 对 比 估计 方法 的 是 ， 负 
采样 技术 不 对 样本 集合 进行 概率 归 一 化 , 而 直接 采用 神经 网 络 语言 模型 输出 : 


P (l= waw) = 7 oat et (3.43) 
那么 , 目标 函数 可 以 简化 为 : 
K 
J (0) = logp (l = 1hve,wi) + > log p (l = Ohvr, wi) 
k=1 
K 
= logp (l = 1|we, wi) + > log (1 — p (l = Awe, wi)) 
k=1 
K 
1 i 
= log TF ea) e + 2 log (: IF e-ewe) =) 
K 
1 i 
= los yy e e 十 2 log (; + mam) 
K 
= logo (e (w;) +e (we)) + > ,logo (—e (we) +e (we)) (3.44) 
k= 


Mikolov 等 人 实验 发 现 , 负 样 本 数目 K = 5 时 就 能 够 取得 很 好 的 性 能 。 可 见 ， 负 采 
样 技术 极 大 地 简化 了 概率 估计 方法 , 有 效 提升 了 词 向 量 的 学 习 效 率 。 
exp{h-e(w)} exp {h * e (w: 


加 z (w) 


Y exp {h + e(wx)} 
k=1 


D, 在 NCE 方法 中 一 般 取 z (w) = 1. 


1pe (w|WC) = 
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3.2.5 ” 字 词 混合 的 分 布 式 表示 方法 


基于 分 布 式 假说 的 词 向 量 表 示 学 习 需 要 足够 的 上 下 文 信息 去 捕捉 一 个 词 的 语义 , 也 
就 是 说 , 要 求 词 出 现 的 频率 足够 高 。 但 是 , 根据 齐 夫 定 律 (Zipf*s Law) ， 绝 大 多 数 词 在 
语 料 中 很 少 出 现 。 对 于 这 些 词 , 无 法 依据 分 布 式 假说 获得 高 质量 的 词 向 量 表示 。 

虽然 词 是 能 够 独立 运用 的 最 小 语义 单元 , 但 是 词 并 不 是 最 小 的 语言 单位 , 而 是 由 字 
符 或 字 构 成 的 。 例如 ,英文 单词 由 字母 组 成 , 中 文 词 由 汉字 构成 。 以 中 文 词 为 例 , 研究 者 
分 析 发 现 93% 的 中 文 词 满足 或 部 分 地 满足 语义 组 合 特性 !， 即 这 些 词 是 语义 透明 的 。 如 果 
一 个 词 是 语义 透明 的 , 表明 这 个 词 的 语义 可 以 由 内 部 汉字 的 语义 组 合 而 成 。 如 图 3.9 中 
的 词 “ 出 租车 ”“ 出 ”“ 租 ”“ 车 ”三 个 汉字 的 语义 进行 合成 , 便 能 得 到 “出 租车 ”的 语义 。 
相 比 于 词汇 规模 ,汉字 集合 是 有 限 的 , 根据 国标 GB2312 常用 的 汉字 不 足 7000 ^, 而 且 
汉字 在 语 料 中 的 频率 都 比较 高 , 能 够 在 分 布 式 假说 下 获得 高 质量 的 汉字 向 量 。 因此 ， 如 
果 能 够 充分 挖 抉 汉字 的 语义 向 量 表示 , 设计 准确 的 语义 组 合 函 数 , 就 能 够 极 大 地 增强 汉 
语词 (特别 是 低频 词 ) 的 向 量 表示 能 力 。 基 于 这 种 想法 , 字 词 混合 的 分 布 式 表示 方法 越 来 
越 受 到 研究 者 的 关注 [Chen et al., 2015a; Xu et al., 2016; Wang et al., 2017a]. 

字 词 混合 的 分 布 式 表 示 方 法 可 以 有 多 种 , 它们 之 间 的 区 别 主 要 在 于 两 方面 : 一 是 如 
何 设 计 准 确 的 汉字 语义 组 合 函 数 ; 二 是 如 何 融 合 汉字 组 合 语义 和 中 文 词语 的 原子 语义 。 
下 面 以 C&W 模型 的 思想 为 例 介绍 两 种 字 词 混合 的 分 布 式 表示 方法 。 

所 有 方法 的 目标 仍然 是 区 分 正常 的 n 元 组 和 随机 的 元 组 , 核心 任务 还 是 计算 一 个 
n 元 组 的 得 分 。 图 3.9 Ca) 是 一 种 简单 而 直接 的 字 词 混合 方法 。 假设 中 文 词 wi = cic2…al 
由 1 个 汉字 组 成 (例如 “出 租车 ”由 3 个 汉字 组 成 )， 该 方法 首先 学 习 汉字 串 ecg s+ cy 的 
语义 向 量 组 合 表示 z (ci1c2e…c1) 和 中 文 词 wi 的 原子 向 量 表示 z (wi). 在 组 合 汉 字 的 语 
义 向 量 时 , 假设 各 个 汉字 的 贡献 相同 , 利用 平均 字 向 量 表示 æ (ci1c2… Cy): 


l 
zlae a) =} P ela) (3.45) 
k=1 


其 中 , zw (ce) 表示 汉字 cx 的 向 量 表示 。 为 了 获得 最 终 的 词 向 量 , 该 方法 直接 将 汉字 的 语 
义 组 合 表示 和 中 文 词 向 量 表 示 进 行 拼接 : 


Xj = [z(ctcz 1); (wi)] (3.46) 


之 后 的 hos hy 和 最 终 得 分 的 计算 与 C&W 模型 相同 。 

不 难看 出 ， 上 述 方法 并 未 考虑 不 同 的 汉字 对 组 合 语义 的 影响 , 也 没 考虑 组 合 语义 和 
原子 语义 对 最 终 词 向 量 的 影响 。 例 如 , 在 中 文 词语 “出 租车 ” 中 ,汉字 “车 ”的 贡献 最 
大 ,“ 出 ” 和 “ 租 ” 仅 起 修饰 作用 ,贡献 相对 较 小 。 可 见 ， 不 同 汉字 不 应 该 等 同 视 之 。 另 一 
方面 , 有 的 词 是 透明 词 , 更 多 地 依赖 组 合 语义 , 而 有 的 词 是 非 透明 的 〈 例 如 “苗条 ”)， 则 
更 多 地 依赖 词 的 原子 语义 。 图 3.9 (b) 所 展示 的 是 同时 考虑 上 述 两 点 因素 的 字 词 混合 方 


+ 其 中 , 70% 是 部 分 满足 ，30% 是 完全 满足 
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al 上 中 i | 7 | m im) 下 四 
两 人 | 搭乘 “| 出 租车 到 | 机 场 两 人 | 搭乘 | 出 租车 到 | 机 场 
7N @ AVE ne Gating 


两 人 搭乘 出 租车 机场 两 人 搭乘 出 租车 机场 
(a) 基于 字 向 量 平均 和 字 词 拼接 的 混合 表示 (b) 基于 门限 和 池 化 的 混合 表示 


图 3.9 字 词 混合 的 词 向 量 表示 方法 


法 。 首先 通过 门限 (gating) 机 制 获得 汉字 的 组 合 语义 : 


l 
g (c1c2: 0) = X ve O a (cr) (3.47) 
k=1 
其 中 ,wk E RO 表示 控制 门 , 控制 汉字 cx 的 向 量 z (cp) 对 组 合 语义 的 贡献 ,可 通过 如 下 
方式 计算 : 
vk = tanh (W [æ (cx) ; æ (w,)]) (3.48) 


其 中 , W e Rdx24。 在 融合 组 合 语义 和 原子 语义 时 ,通过 最 大 池 化 Gmax-pooling) 方式 
获得 : 


Xi= max (a (c1c2 °- C1), £ (wi);,) (3.49) 


通过 池 化 机 制 , 可 以 学 习 出 最 终 词 的 语义 更 加 依赖 于 哪 一 种 语义 (是 组 合 语义 还 是 原子 
语义 )。 大 量 的 实验 表明 , 考虑 词 内 汉字 贡献 度 后 获得 的 词 向 量具 有 更 准确 的 表达 能 


3.3 ”短语 的 分 布 式 表示 


在 统计 自然 语言 处 理 中 , 所 说 的 短语 一 般 指 连续 的 词 串 , 并 非 只 是 句法 意义 上 的 名 
词 短语 、 动词 短语 和 介词 短语 等 。 短语 的 分 布 式 表 示 学 习 方 法 分 为 两 种 : 一 种 方法 视 短 
语 为 不 可 分 割 的 独立 语义 单元 ,， 然 后 基于 分 布 式 假说 学 习 短语 的 语义 向 量 表示 ; 另 一 种 
方法 认为 短语 的 语义 由 词组 合 而 成 , 关键 是 学 习 词 和 词 之 间 的 语义 组 合 方式 。 

与 词 相 比 , 短语 的 出 现 频 率 更 低 , 因此 基于 分 布 式 假说 的 短语 向 量 表示 在 质量 上 无 
法 得 到 保证 。 Mikolov 等 人 只 是 将 部 分 英语 常见 短语 (例如 “New York Times” 和 “United 
Nations” 等 ) 视 为 不 可 分 割 的 语义 单元 , 与 词 等 同 对待 (例如 “New_York_Times” 
和 “United_Nations”), 但 利用 CBOW 模型 或 Skip-gram 模型 学 习 相应 的 分 布 式 表 示 。 
可 见 , 这 类 方法 无 法 适用 于 普通 的 短语 表示 学 习 。 
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3.3.1 ”基于 词 袋 的 分 布 式 表示 


基于 组 合 语 义 的 短语 表示 学 习 是 一 种 更 加 自然 合理 的 方法 。 如 何 将 词 的 语义 组 
合成 短语 的 语义 是 这 类 表示 学 习 方法 的 核心 。 给 定 一 个 由 i 个 词组 成 的 短语 ph; = 
wiw2.…wi， 最 简单 的 语义 组 合 方法 就 是 采用 词 袋 模型 [Collobert et al., 2011]， 即 对 词 
各 量 平均 或 者 对 词 向 量 的 每 一 维 取 最 大 等 方式 : 


ph; = = DD (uw) (3.50) 
k=1 
ph; = max (æ (w1), 2 (wə)p (onn) (3.51) 


LE 


然 , 这 种 方法 不 考虑 短语 中 不 同 词 的 权重 ,而 且 没有 对 词 的 顺序 进行 建 模 。 针 对 前 者 ， 
可 以 在 对 词 向 量 平均 的 基础 上 添加 词 的 权重 信息 : 


xz 


1 i 
ph; = = >) vest (wr) (3.52) 
k=1 


其 中 , vi 可 以 是 词 wk 对 应 的 词 频 或 TF-IDF 等 信息 , 或 者 可 采用 字 词 混合 模型 中 的 门 
限 机 制 控制 不 同 词 对 短语 表示 的 贡献 。 


3.3.2 ”基于 自动 编码 器 的 分 布 式 表 示 


正如 前 面 所 述 , 基于 词 袋 模型 的 短语 表示 方法 还 存在 另 一 个 问题 , 即 无 法 捕捉 短语 
中 的 词 序 信息 。 在 很 多 情形 下 , 词 序 不 同 , 短语 的 语义 完全 不 同 。 例如 ,两 个 短语 “ 猫 吃 
鱼 ” 和 “人 鱼 吃 猫 ”使 用 相同 的 三 个 词语 , 语义 却 完全 相反 。 因 此 , 短语 的 分 布 式 语义 表示 
学 习 需 要 对 词语 的 顺序 进行 有 效 建 模 。 本 节 介绍 短语 表示 学 习 的 一 种 典型 方法 , 即 递 归 
自动 编码 器 (recursive autoencoder, RAE) [Socher et al., 2011b]。 

顾名思义 ,递归 自动 编码 器 就 是 以 递归 的 方式 自 底 向 上 不 断 地 合并 两 个 子 节点 的 向 
量 表示 , 直至 获得 短语 的 向 量 表 示 。 图 3.10 给 出 了 一 个 递归 自动 编码 器 应 用 于 二 又 树 的 
例子 ,其 中 树 上 的 每 个 节点 都 采用 相同 的 标准 自动 编码 器 。 标准 自动 编码 器 的 目的 是 学 


图 3.10 递归 自动 编码 器 示意 图 


40 第 3 章 文本 表示 


习 给 定 输入 的 一 个 精简 、 抽 象 的 向 量 表达 。 例如 ,对 于 图 3.10 中 前 两 个 输入 词 对 应 的 向 
量 ay 和 zo, 标准 自动 编码 器 将 利用 如 下 的 方式 学 习 一 个 抽象 表示 zi: 


a? = f (WO [ariwa] +00) (358) 


其 中 , WO eR, BY) ER, f(-) =tanh(.)， 即 输入 两 个 d 维 向 量 zl 和 za， 输 出 
一 个 a 维 向 量 at, 并 且 要 求 x? 是 zi 与 za 的 一 个 压缩 抽象 表示 。 为 了 验证 zi 的 质量 ， 
可 以 从 输出 z3 重 构 出 输入 : 


[24325] = f (WO +5®) (3.54) 


Hep, W e R44, b) € Ri, f(-) = tanh(-). 标准 自动 编码 器 要 求 输入 [zx1; za] 
和 重 构 输入 [z4; z9] 之 间 的 误差 越 小 越 好 : 


Ere (sea) = 5 æn; 2a] ~ oa] |? (3.55) 


将 zz 和 zs 作为 输入 , 相同 的 自动 编码 器 可 以 获得 短语 w3 的 表示 x3。 然后 以 a? 和 og 
作为 输入 ,可 以 得 到 整个 短语 的 表示 zx4。 
作为 一 种 无 监督 方法 ， 递 归 自 动 编码 器 以 最 小 化 短语 的 重 构 误 差 之 和 作为 目标 
函数 : 
Eo (phi) = argmin ` Erec (nd) (3.56) 
bteA(phi) ndEbt 
其 中 ,A (ph;) 表示 短语 ph, 对 应 的 所 有 可 能 的 二 又 树 , nd 表示 特定 二 叉 树 bt 上 的 任意 
STA, Exec (nd) 表示 节点 nd 的 重 构 误差 。 
为 了 检验 整个 短语 的 语义 向 量 表示 的 质量 , 可 以 测试 语义 相近 的 短语 在 语义 向 量 空 
间 中 能 否 聚 集 在 一 起 。 假设 用 于 训练 的 短语 集合 为 5 (ph)， 对 于 一 个 未 见 的 短语 ph*, 
利用 短语 向 量 之 间 的 余弦 距离 度量 任意 两 个 短语 之 间 的 语义 相似 度 ， 从 S (ph) 中 搜索 
与 ph* 相似 的 短语 列表 List (ph*), 检验 List (ph*) 与 ph* 是 否 真正 的 语义 相近 。 表 3.2 
的 第 一 列 给 出 了 4 个 不 同 长 度 的 英文 测试 短语 , 第 二 列 展示 了 无 监督 递归 自动 编码 器 
RAE 能 够 找到 的 向 量 空间 中 相近 的 候选 短语 列表 。 
表 3.2 RAE 和 BRAE 在 短语 语义 表示 方面 的 对 比 


新 输入 短语 RAE BRAE 
core force military power 
military force main force military strength 
labor force armed forces 
to a meeting at the meeting 
at a meeting at a rate during the meeting 
a meeting at the conference 
one can accept do not favor 
do not agree ican understand will not compromise 
do not want not to approve 
each country regards every citizen in this country 
each people in this nation each country has its all the people in the country 


each other, and people all over the country 
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可 以 发 现 ，RAE 能 够 在 一 定 程度 上 捕捉 短语 的 结构 信息 ， 例 如 “military force” 
All “labor force”、“do not agree” il “do not want” 等 。 但 是 ，RAE 在 编码 短语 的 语义 
信息 方面 比较 欠缺 。 

当然 ,如 果 存 在 一 些 短 语 ， 有 正确 的 语义 向 量 表示 作为 监督 信息 , 就 可 以 采用 有 监 
督 的 递归 自动 编码 器 学 习 短语 的 语义 表示 模型 。 但是, 正确 的 语义 表示 在 现实 中 并 不 
存在 。 为 了 让 短语 的 向 量 表 示 刻 画 足 够 的 语义 信息 ，Zhang 等 人 提出 了 一 种 双语 约束 
的 递归 自动 编码 器 框架 [Zhang et al., 2014]， 其 基本 假设 是 : 两 个 互 为 翻译 的 短语 具有 
相同 的 语义 , 那么 它们 应 该 共享 相同 的 向 量 表示 。 基于 这 个 前 提 假 设 , 可 以 采用 协同 训 
练 (co-training) 的 思想 同时 学 习 两 种 语言 的 短语 向 量 表示 。 首先, 利用 两 个 递归 自动 编 
码 器 以 无 监督 方式 学 习 语 言 X 和 语言 了 中 短语 的 初始 表示 ,然后 ， 以 最 小 化 语言 X 和 
语言 Y 中 互 译 短语 (phs, phy) 之 间 的 语义 距离 为 目标 函数 , 优化 两 种 语言 的 递归 自动 
编码 器 网 络 。 图 3.11 展示 了 该 方法 的 基本 框架 。 


argmin( f(x},3/')0) 
o 


y$ 
f2) 
mmg 
4 4 
Wy wo wh WW Wh Wa Wy 


图 3.11 双语 约束 的 递归 自动 编码 器 示意 图 
该 方法 的 目标 函数 包括 两 部 分 : 一 部 分 是 递归 自动 编码 器 的 重 构 误 差 , 另 一 部 分 是 
互 译 短语 之 间 的 语义 误差 : 
E (ph,, phy;0) = aErec (ph,, phy;0) + (1 — a) Esem (phs, phy; 0) (3.57) 


HP, Erec (ph,,phy;0) 表示 两 个 短语 的 重 构 误 差 ，Espm (pha, phy;0) 表示 互 译 短语 
之 间 的 语义 误差 , a 调节 重 构 误差 和 语义 误差 之 间 的 权重 。EREc (php, phy;9) 包括 两 个 
短语 的 重 构 误差 : 


Erec (ph,, phy;0) = Erec (phs; 0) + Erec (phy;0) (3.58) 


每 个 短语 重 构 误差 的 计算 方式 与 无 监督 递归 自动 编码 器 的 计算 方法 相同 。Espv (ph， 
ph,;0) 包含 两 个 方向 的 语义 误差 


Esem (ph,,ph,;@) = Esem (ph,|ph,; 0) + Esem (ph,|ph,; 0) (3.59) 
it 
Esem (ph,|phy;9) = 5llæ (phs) — f (Wey (phy) +83) I? (3.60) 


sem (phylph,;4) = 5 lly (phy) — f (We (ph) +64) IÈ (3.61) 
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对 于 包括 N 个 互 译 短语 的 短语 集合 (PH-,PHy), 希望 在 整个 数据 集 上 的 误差 最 小 : 


1 入 
Jonas (PHa, PHy;0) = ș p> E(ph,,phy;0) + ȘI? (3.62) 
(ph, ph, )e(PHz,PH,) 


其 中 第 二 项 表示 参数 的 正则 化 项 (regularization term) . “49%, 在 最 小 化 互 译 短语 的 语 
义 距离 的 同时 , 也 可 以 最 大 化 非 互 译 短语 的 语义 距离 : 


py (ph,{ph,; 0) = max {0, Esem (ph,|ph,;@) — Esem (phslphy;0) +1} (3.63) 


其 中 (ph,, phy) 是 互 译 短语 ，(ph,, phi) 为 随机 采样 的 非 互 译 短语 。 通 过 协同 训练 机 制 ， 
最 终 可 得 到 两 种 语言 的 短语 表示 模型 。 

表 3.2 中 第 三 列 展示 了 BRAE 模型 的 效果 。 与 无 监督 的 RAE ALL, BRAE 能 够 编 
码 短语 的 语义 信息 。 例 如 ,输入 短语 “do not agree”, BRAE 能 够 为 其 找到 语义 相近 但 
用 词 差别 较 大 的 短语 : “will not compromise” 和 “not to approve”. 可 见 , 双语 约束 的 递 
归 自 动 编码 器 BRAE 能 够 学 习 较为 准确 的 短语 语义 向 量 表示 。 


3.4 ”句子 的 分 布 式 表示 


由 于 词 和 短语 往往 不 是 文本 挖掘 任务 处 理 的 直接 对 象 , 因此 ， 对 于 词 和 短语 的 表示 
学 习 主要 还 是 采用 通用 (或 任务 无 关 ) 的 分 布 式 表示 方法 。 相对 而 言 , 句子 是 很 多 文本 挖 
据 任 务 的 直接 处 理 对 象 , 例如 面向 句子 的 文本 分 类 、 情感 分 析 和 蕴涵 推断 等 。 所 以 , 句子 
的 分 布 式 表示 学 习 至 关 重 要 。 通常 有 两 大 类 句子 表示 方法 , 一 类 是 通用 的 , 另 一 类 则 是 
任务 相关 的 。 


3.4.1 ”通用 的 句子 表示 


通用 的 句子 表示 几乎 都 是 以 无 监督 方法 为 核心 思想 ， 设 计 简单 的 基于 神经 网 络 的 名 
子 表示 模型 ,在 大 规模 句子 集合 D = {wm MABE LIME es BS. AF 
介绍 三 种 典型 的 通用 句子 表示 方法 。 


1. PV-DM 和 PV-DBOW 模型 


Le & Mikolov 于 2014 年 对 词 表示 学 习 中 的 CBOW 模型 和 Skip-gram 模型 进行 了 
扩展 , 使 其 可 以 同时 学 习 词 向 量 和 句子 向 量 [Le and Mikolov, 2014]. 对 于 集合 DD 中 的 MM 
个 句子 , 按照 顺序 , 每 个 句子 Di 对 应 一 个 序号 i 该 序号 i 可 以 唯一 代表 该 句子 。 假设 我 
们 希望 句子 向 量 的 维度 为 p, 那么 训练 集中 所 有 句子 的 向 量 对 应 一 个 矩阵 PV e RMP, 
序号 为 i 的 句子 对 应 的 向 量 是 PV 中 的 第 i 行 。 

对 CBOW 词 表示 模型 的 扩展 ， 形成 了 句子 表示 模型 PV-DM (Paragraph Vector 
with sentence as Distributed Memory)。 如 图 3.12 (a) 所 示 ，PV-DM 模型 将 上 下 文 
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所 在 的 句子 视 为 一 个 记忆 单元 ,， 捕 提 当 前 上 下 文 缺失 的 信息 。 对 于 任意 一 个 元 组 
(wi, C) = Wi-c Wai ic 和 该 n 元 组 所 在 的 句子 序号 Senld, 将 SenId 和 
WC = wi_c… Wiis Wire 作为 输入 , 计算 句子 和 上 下 文 词 的 平均 词 向 量 (或 采 
用 向 量 拼接 的 方式 ): 


$ 
k= re ( (SenId) + ee w) (3.64) 
其 中 , e(Senld) 表示 PV 中 Senld 对 应 的 句 向 量 。 中心 词 的 概率 p(wijwi_c,… , wi-1, 
ui Witc, Senld) 计算 方法 、 目标 函 数 和 训练 过 程 均 与 CBOW 模型 一 致 。 

对 Skip-gram 模型 扩展 之 后 ， 形 成 了 句子 表示 模型 PV-DBOW (Distributed Bag- 
of-Words version of Paragraph Vector)。 如 图 3.12 b) 所 示 ， 该 模型 以 句子 为 输入 ， 以 
句子 中 随机 抽样 的 词 为 输出 , 即 要 求 句 子 能 够 预测 句 中 的 任意 词 。 其 目标 函数 设计 和 训 
练 方式 与 Skip-gram 模型 相同 。 


POW; W-cy ts Wi-1s Wisst» Wisc SenId) 


p(w; | Senld) ed p(w; |Senld) 
eee eee C 
mm 0 
IT j; 
Senld wc Wa Wa Wise Senld 
(a) PV-DM 句 子 表示 模型 (b) PV-DBOW 人 句子 表示 模型 


图 3.12 PV-DM 模型 和 PV-DBOW 模型 


PV-DM 和 PV-DBOW 两 个 模型 简单 有 效 , 但 是 仅 能 够 对 训练 数据 中 的 句子 学 习 对 
应 的 向 量 表示 。 如 果 希 望 获得 未 见 测 试 句 子 的 向 量 表示 ,， 则 需要 将 该 句子 放 入 训练 集中 
重新 训练 模型 。 所 以 , 这 类 模型 的 泛 化 性 能 受到 了 一 定 的 限制 。 


2. 基于 词 袋 模型 的 分 布 式 表示 


基于 语义 组 合 的 通用 句子 表示 方法 是 目前 研究 的 一 个 热点 。 其 中 一 类 方法 是 基于 词 
袋 模型 进行 句子 表示 ,该 方法 认为 句子 的 语义 是 句 中 词汇 语义 的 简单 组 合 , 最 简单 就 是 
采用 词 向 量 平均 的 方法 : 


n 


es = ‘> e (wr) (3.65) 


k=1 
其 中 ，e (wk) 表示 词 wi 对 应 的 词 向 量 , 可 通过 词 向 量 学 习 方法 获得 。 n 表示 句子 的 
KÆ, es 是 句子 的 向 量 表示 。 由 于 句子 中 不 同 词 对 句子 语义 的 贡献 也 不 尽 相 同 ， 例 如 
甸子 “明天 将 在 北京 举行 ‘一 带 一 路 ' 论坛 ” 中 ,一 带 一 路 ”显然 对 句子 语义 的 贡献 更 
Ko KE, 在 简单 组 合 词汇 语义 时 ,如 何 为 每 个 词 赋予 合适 的 权重 是 这 类 方法 研究 的 重 
点 , Bi: 
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i 
e=; x, vpe (wk) (3.66) 
k=1 


HEP up 表示 词 wk 的 权重 。 可 以 采用 TF-IDF 值 或 信息 论 中 的 自信 息 (self-information ) 等 
AAPG vko [Wang et al., 2017b] 提出 了 一 种 基于 自信 息 的 权重 计算 方法 , 通过 如 下 
方式 计算 vp: 
__exp (six) 
X exp (sii) 
i=l 
其 中 , si, = 一 log (p (wklwata .zk_1))， 表 示 词 wk 的 自信 息 , 可 通过 语言 模型 进行 估 
计 。 词 wk 的 自信 息 越 大 , 表明 该 词 所 携带 的 信息 量 越 多 , 所 以 在 句子 表示 中 应 该 被 赋予 
更 大 的 权重 。 这 类 基于 词 袋 模型 的 句子 表示 方法 虽然 思想 简单 , 但 是 在 相似 句子 判别 、 
文本 蕴涵 等 自然 语言 处 理 任务 中 表现 出 很 强 的 竞争 力 。 


(3.67) 


3. Skip-Thought 模型 


Skip-Thought 方法 是 另 一 类 基于 语义 组 合 的 句子 表示 方法 [Kiros et al., 2015], 
该 方法 类 似 于 PV-DBOW 模型 ， 其 基本 思想 也 是 来 源 于 Skip-gram 模型 ， 但 不 同 于 
PV-DBOW 模型 利用 句子 预测 句 中 的 词 ，Skip-Thought 模型 利用 当前 句子 De 预测 前 
一 个 句子 Dr 和 后 一 个 句子 Depro 该 模型 认为 , 文本 中 连续 出 现 的 句子 Dk_1DkDk41 
表达 的 意思 比较 接近 , 因此, 根据 句子 Dk 的 语义 可 以 重 构 出 前 后 两 个 句子 。 

图 3.13 给 出 了 Skip-Thought 模型 的 示意 图 。 该 模型 有 核心 模块 : 一 个 负责 对 当前 
句子 Dy 进行 编码 ,， 另 一 个 负责 从 Dy 的 语义 表示 解码 生成 Dri 和 Depis 编码 器 采用 
基于 语义 组 合 的 循环 神经 网 络 , 每 个 神经 单元 采用 门限 循环 单元 (GRU)。 编 码 过 程 与 循 
环 神经 网 络 语言 模型 一 致 ,这 里 不 再 歼 述 。 如 图 3.13 左 侧 所 示 , 得 到 句 中 每 个 位 置 的 隐 
藏 表示 ht 后 ， 最 后 一 个 位 置 对 应 的 隐藏 表示 ht 将 作为 整个 句子 的 语义 编码 表示 。 


目 
a 
各 
ak ak h ne Rk) a 
wf! wht we w! 
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第 k 个 句子 age Aki yb al 
第 (t+D) 个 句子 
图 3.13 Skip-Thought 句子 表示 模型 
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解码 器 类 似 于 基于 GRU 的 神经 网 络 语言 模型 ， 唯 一 的 区 别 在 于 每 个 时 刻 的 输入 除 
了 上 一 时 刻 的 隐藏 表示 hji 和 输出 wji 之 外 , 还 有 句子 Dk 的 隐藏 表示 hk, 每 个 时 间 
节点 GRU 单元 的 计算 过 程 如 下 (以 预测 前 一 个 句子 为 例 ): 


ri =o (We le (wit) 十 DA + OK nk + bE) (3.68) 
zi = o (WE le (wht) + US the} + CP nk + bE) (3.69) 
hj = tanh (We (wh-1) +U (ri © hs-1) +C* 1hs +b) (3.70) 
hë = zi © ħj + (1-2) ony (3.71) 


给 定 由 -1、 已 经 产生 的 词语 序列 wi lwh wk 和 句子 Dk 的 隐藏 表示 hk, 生成 下 
一 个 词语 wh? 的 概率 为 : 
p Gir ehs) x exp (e (wi?) ie’) (3.72) 
后 一 个 句子 Deyi 的 计算 过 程 类 似 。 
Skip-Thought 模型 训练 的 目标 函数 为 : 


M l m 
D (wis! ne) + Sov ote at} (3.73) 
ka (j=1 t=1 


其 中 ，M 为 训练 集合 中 句子 的 数目 ，! 和 m 分 别 是 前 一 个 句子 和 后 一 个 句子 的 长 度 。 
Skip-Thought 模型 充分 结合 了 语义 组 合 思想 和 分 布 式 假说 。 如 果 训 练 语 料 都 是 由 连 
续 文 本 形式 构成 的 , 那么 Skip-Thought 模型 可 以 获得 高 质量 的 句子 向 量 表示 。 


3.4.2 ”任务 相关 的 句子 表示 


任务 相关 的 句子 表示 以 具体 任务 的 性 能 指标 为 优化 目标 , 例如 , 在 句子 级 的 情感 分 
析 任 务 中 , 句子 的 向 量 表示 最 终 是 为 了 预测 该 句子 的 情感 极 性 。 以 下 分 别 以 递归 神经 网 
络 (recursive neural network, RNN) [Socher et al., 2013] 和 卷 积 神经 网 络 (convolutional 
neural networks, CNN) [Kim, 2014] 为 例 介绍 两 种 任务 相关 的 句子 表示 学 习 方法 。 


1. 基于 递归 神经 网 络 的 句子 表示 方法 


递归 神经 网 络 是 一 种 适合 于 树 结构 的 深度 学 习 模型 。 给 定子 节点 的 向 量 表示 , 递归 
神经 网 络 自 底 向 上 地 递归 学 习 父 节点 的 向 量 表示 , 直至 当前 父 节点 履 盖 整 个 句子 。 给 
定 一 个 句子 ,可 以 首先 通过 句法 分 析 技 术 获 得 该 句子 的 树 结构 ,通常 是 一 棵 二 又 树 。 以 
图 3.14 所 示 的 句子 及 其 对 应 的 二 又 树 为 例 , 叶子 节点 对 应 每 个 词 的 d 维 词 向 量 !, 递归 
神经 网 络 沿 着 树 结构 合并 叶子 节点 的 词 向 量 ， 分 别 得 到 词组 w wg 和 ws 的 向 量 表示 


2 4 6 
xi, 23 Fl a8: 


a} = f (WP [e2] +) (3.74) 


+ 在 任务 相关 的 句子 表示 学 习 中 , 可 以 随机 初始 化 词 向 量 , 也 可 以 采用 Skip-gram 等 模型 预 训 练 获得 的 词 向 量 作为 初 
始 值 , 然后 在 句子 表示 学 习 的 过 程 中 进一步 优化 底层 词 向 量 。 
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a} = f (WP [esie] + 0S”) (3.75) 

af = f (WP [es; zo] + Bf) (3.76) 
然后 ， 以 子 节点 wf Mak 为 输入 ,获得 词组 ws 对 应 的 向 量 表示 z8: 

af = = (Ww [ ata z$] + bY?) (3.77) 
最 后 ， 以 子 节点 zz 和 zw 为 输入 ,递归 神经 网 络 得 到 整个 句子 的 向 量 表示 r$: 

af = f (WP (xf; 28] + 0%”) (3.78) 


上 述 公式 中 的 参数 矩阵 wi, wy, wy), Ww), Wi e Rixa, 偏 置 B®), oo), bo), b, 
bP e 了 <。 如 果 是 预测 句子 的 情感 极 性 正面 、 负 面 或 中 性 )，zg 将 作为 句子 的 抽象 特征 
表示 通过 softmax 函数 计算 情感 极 性 的 概率 分 布 : 

t = softmax (Wat + b) (3.79) 
其 中 , W ER”, BERS, 数字 3 对 应 情感 极 性 的 维度 (1 表示 正面 , -1 表示 负面 , 0 
表示 中 性 )。 给 定 组 “句子 , 情感 极 性 ”的 训练 数据 D = (Di Li), » 递归 神经 网 络 以 
最 小 化 交叉 焙 为 目标 函数 优化 网 络 参 数 9 (包括 参数 矩阵 、 偏 置 和 词 向 量 ): 


= argmin — )_ ôL (0) log p (Di, l) (3.80) 


其 中 , Li € {-1,0, 1}; WR l= Lis ôr, (1) = 1, EW op, (0) = 0; p(Di,l) 表示 二 中 情感 
极 性 ! 对 应 的 概率 。 


a 
(3) 
A 
6 
为 
(2) 
A 

xp x x5 

0) () (1) 

mW w; w; 

» kg Ws Wy Ws wW 


图 3.14 基于 递归 神经 网 络 的 句子 表示 方法 


从 图 3.14 可 以 发 现 , 递归 神经 网 络 与 递归 自动 编码 器 非常 相似 , 主要 区 别 有 三 点 : 
第 一 , 递归 神经 网 络 以 具体 的 一 棵 二 叉 树 为 输入 , 而 递归 自动 编码 器 需要 搜索 一 n 
的 二 叉 树 ; 第 二 , 递归 神经 网 络 不 需要 在 每 个 节点 计算 重 构 误差 ; 第 三 , 递归 神经 网 络 在 
不 同 的 节点 可 使 用 相同 的 参数 ,也 可 以 根据 子 节点 类 型 采用 不 同 的 参数 ,例如 参数 矩阵 
WO WW w wO 和 偏 置 Oo bP, bP, bP 可 以 相同 , 也 可 以 不 同 。 
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2. 基于 卷 积 神经 网 络 的 句子 表示 方法 


递归 神经 网 络 基于 树 结构 , 适合 于 对 词 序 和 层次 化 结构 有 依赖 的 任务 , 例如 情感 分 
析 和 句法 分 析 等 。 对 于 句子 的 主题 分 类 任务 , 句子 中 的 某 些 关键 信息 对 于 主题 类 别 预测 
起 着 决定 性 的 作用 , 因此 , 卷 积 神经 网 络 成 为 解决 这 类 任务 的 经 典 模型 。 如 图 3.15 所 示 ， 
对 于 一 个 句子 , 卷 积 神经 网 络 以 每 个 词 的 词 向 量 作为 输入 , 通过 顺序 地 对 上 下 文 窗口 ! 进 
行 卷 积 (convolution) 总 结局 部 信息 , 并 利用 池 化 层 (pooling) 提取 全 局 的 重要 信息 , 再 
经 过 其 他 网 络 层 CSB Le. Dropout 层 和 线性 层 等 ), 得 到 固定 维度 的 句子 向 量 表 
示 ， 以 刻画 句子 全 局 性 的 语义 信息 。 


3 词 窗口 的 卷 积 RAWE 


5 词 窗 口 的 卷 积 
图 3.15 ”基于 卷 积 神经 网 络 的 句子 表示 方法 


形式 化 地 , 给 定 包含 nn 个 词 的 句子 wwa- Wp» 每 个 词 首先 利用 预 训练 或 随机 初始 
化 的 词 向 量 矩 阵 工 E RV 映射 为 词 向 量 列表 四 = [zi, za ,zn]。 对 于 任意 一 个 有 h 
长 度 的 窗口 tiini 卷 积 层 采用 卷 积 算 子 ?F (1 < t < T, T 表示 卷 积 算 子 数目 ) 得 到 
一 个 局 部 特征 yf: 

Yi = Fy (Waiipn1 +b) (3.81) 
其 中 , Fy (+) 表示 非 线性 激活 函数 ,， W € 了 ad， DER, yf CR. GREET Fe Mains 到 
zn_htin 遍历 整个 句子 , 得 到 特征 列表 : yt = [yt yh Yhn] AL, yt E RH 
是 一 个 不 定 长 的 向 量 , 维度 直接 取决 于 句子 长 度 n, 句子 长 度 从 几 个 词 到 上 百 个 词 ， yt 
的 维度 也 将 随 着 句 长 改变 而 动态 变化 。 

为 了 将 不 定 长 的 y 转换 为 定 长 的 输出 , 池 化 成 为 不 可 或 缺 的 操作 。 最 大 池 化 是 最 流 
行 的 池 化 方法 [Collobert et al., 2011; Kim, 2014], ATAU ĝt = max (yt) 代表 了 卷 
积 算 子 Fi 在 整个 句子 上 获得 的 最 重要 特征 。7 个 卷 积 算 子 将 得 到 一 个 了 维 的 特征 向 量 
y= [91,8,---,97]- 

1 在 窗口 大 小 h 的 选择 方面 , 可 采用 多 组 窗口 (例如 图 3.15 P h = 3,5) 进行 全 局 的 信息 提取 。 
2 一般 也 称 为 过 滤器 , 完成 对 上 下 文 窗口 中 信息 的 过 滤 。 
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窗口 大 小 h 是 一 个 经 验 值 , 为 使 模型 具有 一 定 的 鲁 棒 性 , 卷 积 神经 网 络 一 般 尝 试 多 
个 不 同 尺度 的 窗口 h, 例如 图 3.15 分 别 采用 了 有 h = 3 Mh =5, 其 中 每 个 窗口 对 应 一 个 
T 维 的 特征 向 量 y = [六 , 即 ,… ,六 ]。 之 后 经 过 其 他 网 络 层 便 可 以 获得 句子 定 长 的 向 量 
表示 。 如 果 应 用 于 句子 主题 分 类 任务 , 则 可 以 在 训练 数据 上 采用 类 似 于 情感 分 析 任 务 中 
的 最 小 化 交叉 焙 的 目标 函数 优化 卷 积 神经 网 络 中 的 所 有 参数 。 


3.5 ”文档 的 分 布 式 表示 


在 文本 分 类 、 情 感 分 析 、 文本 摘要 和 篇 章 分 析 等 诸多 自然 语言 处 理 任务 中 , 文档 是 
最 常见 的 直接 处 理 对 象 。 对 文档 的 深度 理解 是 实现 这 些 任务 的 关键 , 而 文档 理解 的 前 提 
是 对 文档 进行 表示 。 由 于 文档 的 分 布 式 表示 可 以 捕捉 更 多 全 局 的 语义 信息 ， 因 此 成 为 一 
个 重要 的 研究 方向 。 如 何 从 词 、 短 语 和 句子 的 分 布 式 表示 学 习 文档 的 分 布 式 表示 是 整个 问 
题 的 关键 。 本 节 将 从 通用 模型 和 面向 任务 的 模型 两 个 角度 介绍 文档 的 分 布 式 表示 方法 。 


3.5.1 ”通用 的 文档 分 布 式 表 示 
1. 基于 词 袋 的 文档 表示 


在 通用 的 文档 分 布 式 表示 中 , 文档 可 视 为 一 个 特殊 的 句子 , 即 所 有 句子 的 自然 拼接 。 
因此 ,可 以 采用 类 似 于 句子 的 分 布 式 表示 方法 学 习 文档 的 分 布 式 表示 。 例 如 ， 基 于 组 合 
语义 的 词 袋 模型 可 以 快速 地 从 词 的 分 布 式 表示 获得 文档 D = (Di) 世 的 分 布 式 表示 : 

1 IDI 
ep = Di Yo ne (wk) (3.82) 
k=1 


其 中 , wk 表示 词 wk 的 权重 , |D| 表示 文档 D 中 不 同 词 的 数目 。 可 以 采用 平均 词 向 量 方 
法 vi = D 或 者 采用 加 权 的 词 向 量 方法 w = TFIDF (wk)。 这 类 方法 简单 高 效 ， 但 不 
足 之 处 在 于 既 没 有 考虑 句子 内 部 词语 之 间 的 顺序 ,也 没有 考虑 文档 内 部 句子 和 句子 之 间 
的 相互 关系 。 


2. 基于 层次 化 自 编码 器 的 句子 表示 


针对 词 袋 模型 表示 能 力 不 足 的 问题 , Li 等 人 提出 了 一 种 层次 化 的 自 编码 器 模型 [Li 
et al., 2015]， 其 基本 思想 是 : 对 M 个 句子 的 文档 D = (Di) 妆 ,进行 编码 获得 对 应 的 
HERR ep, 若 能 够 从 ep 重 构 出 文档 D, 那么 ep 就 应 该 是 文档 D 正确 的 分 布 式 
表示 。 

该 层次 化 自 编码 器 模型 分 为 两 个 部 分 ,一 个 是 从 文档 DD 到 向 量 表示 ep 的 编码 
模型 , 另 一 个 是 从 向 量 表示 ep 到 文档 D 的 重 构 模型 。 在 编码 模型 中 ， 长短 时 记忆 网 
络 (LSTM) 首先 用 于 获得 每 个 句子 的 表示 es ， 然 后 以 句子 表示 为 输入 ,采用 第 二 层 
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LSTM 网 络 对 文档 中 的 句子 序列 进行 建 模 ， 从 而 获得 文档 的 表示 ep。 其 中 es 和 ep 分 
别 是 句子 和 文档 结尾 符 对 应 的 LSTM 隐 层 表示 : 


es, = hs,a, (enc) (3.83) 
hj (enc) = LSTM (eu ji (enc)) (3.84) 

ep= hla» (enc) (3.85) 
h? (enc) = LSTM (es,, h? , (enc)) (3.86) 


重 构 网 络 的 目标 在 于 从 文档 的 分 布 式 表 示 ep 重 构 出 文档 D, 所 采用 的 方法 同样 是 
层次 化 的 LSTM 模型 : 首先 重 构 出 句子 级 隐 层 表示 hè (dec), 然后 重 构 出 句子 se 中 的 所 
有 词语 : 


h? (dec) = LSTM (e’, ,,h? 1 (dec), cP) (3.87) 
hè (dec) = LSTM (eu 1 (dec)) (3.88) 


其 中 , bP (dec) = ep, es, 表示 前 一 个 句子 结尾 符 对 应 的 隐 层 表示 ,cP 表示 编码 模型 
的 上 下 文 表 示 , 可 通过 注意 力 机 制 计算 : 


M 
cP = Yarh? (enc) (3.89) 
k=1 
exp (vx) 
一 (3.90) 
t Eep) 
P 
Up =v" f (Wih? (dec) + Wah? (enc)) (3.91) 


其 中 , ax 表示 编码 模型 中 每 个 句子 的 权重 ,Wi, We E Rd*4, v € Rd*1。 hë (dec) = el,» 
表示 重 构 句子 的 隐 层 表示 。 依据 hi, 计算 词汇 we 的 概率 : 


p (w| +) = Softmax (ew,, hẹ (dec)) (3.92) 


上 述 神经 网 络 在 训练 过 程 中 以 最 大 化 原始 文档 的 似 然 概率 为 目标 函数 , 即 每 个 时 刻 
重 构 的 输出 词 与 原始 文档 对 应 位 置 的 词 应 该 相同 。 

在 图 3.16 H, 文档 包含 两 个 句子 。 首 先进 行 第 一 层 LSTM 编码 , 分 别 得 到 两 个 句子 
的 表示 es, Filles, (句子 结束 符 对 应 的 隐 层 表示 )。 然 后 第 二 层 LSTM 用 于 对 句子 序列 
es, 和 es, 进行 编码 ,得 到 文档 表示 ep。 以 文档 表示 ep 为 输入 , 采用 注意 力 机 制 计算 
编码 模型 句子 级 表示 es F es。 的 上 下 文 。 之 后 重 构 每 个 句子 的 隐 层 表示 hP (dec), 并 
逐 词 生成 重 构 句子 。 模 型 训练 结束 后 , 层次 化 的 编码 网 络 就 可 以 获得 任意 文档 的 分 布 式 
表示 ep。 


3.5.2 ”任务 相关 的 文档 分 布 式 表示 
任务 相关 的 文档 分 布 式 表示 方法 以 优化 任务 的 性 能 为 最 终 目 标 , 广泛 应 用 于 文本 
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电影 结束 了 。 他 想 再 看 一遍 - 


| 
日 
hsı(dec) ja(dec) 
a ae ~ 
\ 2 e l 
\ a isc. Ne ep 
Ny Ss 
\ ss 
1 esn 
日 


电影 结束 了 。 他 想 再 看 一 遍 。 
图 3.16 基于 自 编码 器 的 文档 表示 方法 


分 类 和 情感 分 析 等 任务 。 本 节 介 绍 Tang et al. (2015) 提出 的 一 种 任务 相关 的 文档 表示 
方法 。 

在 这 类 方法 中 , 文档 被 视 为 句子 的 有 机 组 合 , 句子 又 可 以 看 作 是 词 的 有 机 组 合 。 因 
此 ， 从 词 到 句子 和 句子 到 文档 的 语义 组 合 方式 是 文档 表示 方法 学 习 的 核心 任务 。 假 设 文 
$ D = (D), 由 MM 个 句子 组 成 , 其 中 第 i 个 句子 Di = si = wis Win Hn 个 词组 
成 。 那么 , 文档 的 表示 学 习 模型 可 分 为 三 层 : 底部 的 句子 表示 层 、 中 间 的 文档 表示 层 和 项 
部 的 分 类 层 , 如 图 3.17 所 示 。 


图 3.17 基于 层次 化 模型 的 文档 表示 方法 
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句子 表示 层 学 习 从 词 序列 wiii Win 到 句子 si 的 语义 组 合 方式 。 在 本 章 前 面 儿 节 
中 已 经 介绍 了 循环 神经 网 络 、 递 归 神 经 网 络 和 卷 积 神经 网 络 等 句子 表示 模型 。 其 中 , 循 
环 神经 网 络 和 卷 积 神经 网 络 应 用 得 最 为 广泛 。 这 两 种 网 络 都 可 以 用 来 获得 句子 的 分 布 式 
表示 : 


es = LSTM (uj,1--- Win) (3.93) 
es, = CNN (will Win) (3.94) 
在 实际 任务 中 , 可 以 分 别 尝 试 上 述 两 种 模型 , 然后 选择 一 种 效果 更 好 的 方法 。 


文档 表示 层 用 来 学 习 从 句子 序列 s1… sm 到 文档 D 的 语义 组 合 方式 , 在 这 一 过 程 
中 双向 循环 神经 网 络 是 一 种 常用 的 方法 。 以 句子 的 分 布 式 表 示 es,… esw 为 输入 ,双向 
LSTM 模型 分 别 学 习 每 个 句子 si 的 正 向 隐 层 表示 h: 和 逆向 隐 层 表示 hi 


Ti = LSTM (ex, Ria) (3.95) 
hi =LSTM (esi, hin) (3.96) 


将 双向 隐 层 表示 拼接 成 为 句子 s 对 应 的 隐 层 表示 hi = [hi hi] BARRE OEY 
隐 层 表示 , 可 以 采用 平均 策略 或 注意 力 机 制 模 型 得 到 文档 的 表示 : 


M 
ep = vihi (3.97) 
i=l 


其 中 , vi = 或 者 w 是 由 注意 力 机 制 模型 学 习 的 权重 。 


给 定 文档 的 分 布 式 表示 en, 分 类 层 首 先 采 用 一 个 全 连接 网 络 将 ep 转换 为 维度 为 类 
别 数目 C 的 分 值 向 量 a = [x1,… ,zc], 然后 Softmax 函数 将 分 值 向 量 a 转化 为 类 别 的 
概率 分 布 p= [p1,… ,pc]: 


a= f(Wep +b) (3.98) 
pea Re 90 
> exp (ew) 
k'=1 


在 文本 分 类 或 情感 分 析 等 任务 中 , 存在 大 量 的 标注 数据 了 = {(D,L)}, D 为 文档 , L 
是 文档 对 应 的 正确 类 别 。 训 练 过 程 以 最 小 化 交叉 焙 损 失 为 模型 优化 目标 ; 


Cc 
Loss = — >》 X Ly (D) log (px (D)) (3.100) 
DeT k=1 


其 中 , 如果 文档 D ETE kA, W Li (D) =1; 否则 , Li (D) = 0。 模型 训练 后 , 句子 和 
文档 层 的 网 络 就 可 以 学 习 任意 文档 的 分 布 式 表示 。 
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3.6 ”进一步 阅读 


由 于 词 是 构成 短语 、 句子 和 篇 章 的 基本 语言 单元 , 因此 , 词 的 表示 学 习 是 基础 , 也 是 
最 受 关注 的 研究 方向 。 词 分 布 式 表示 学 习 的 前 沿 研 究 主要 体现 在 如 下 四 个 方面 : 如 何 
充分 挖掘 词 的 内 部 结构 信息 [Xu et al., 2016; Bojanowski et al., 2017; Pinter et al., 
2017]; @@ 如 何 更 加 有 效 地 利用 上 下 文 信息 [Ling et al., 2015; Hu et al., 2016; Li et al., 
2017a] 和 词典 、 知 识 图 谱 等 外 部 知识 [Wang et al., 2014; Tissier et al., 2017]; @ 如 何 更 
好 地 解释 词 向 量 表示 [Arora et al., 2016; Wang et al., 2018]; @ 如 何 有 效 地 评价 词 分 布 
式 表示 的 质量 [Yaghoobzadeh and Schutze, 2016]. Lai 等 人 [Lai et al., 2016] 总 结 了 主 
流 的 词 表示 方法 , 并 提出 了 如 何 学 习 更 优 词 向 量 的 一 些 设想 。 

短语 、 句 子 和 文档 的 表示 学 习 多 集中 在 语义 组 合 方式 的 学 习 上 。 例 如 ，[Yu and 
Dredze, 2015] 提出 了 多 种 特征 融合 的 语义 组 合 函 数 模型 ， 用 来 学 习 短 语 分 布 式 表 
ax, [Wang and Zong, 2017] 对 比 了 不 同 组 合 方式 在 短语 表示 学 习 方面 的 优势 和 不 
足 ; [Hashimoto and Tsuruoka, 2016] 研究 了 短语 是 否 可 由 内 部 词 的 语义 组 合 而 成 。 句 
子 表示 学 习 更 加 关注 语义 组 合 方 式 [Gan et al., 2017; Wieting and Gimpel, 2017] 和 语 
言 学 知识 的 利用 问题 [Wang et al., 2016d]。 文 档 通 常 有 基于 组 合 语义 的 分 布 式 表示 和 
基于 主题 分 布 的 表示 两 种 表示 方法 , 如 何 将 两 者 优势 互补 , 学 习 更 加 准确 的 文档 表示 也 
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4.1 概 述 


文本 分 类 是 按照 一 定 的 分 类 体系 对 文本 类 别 进行 自动 标注 的 过 程 。 其 目标 是 在 给 定 
分 类 体系 下 , 将 文本 集中 的 每 个 文本 划分 到 某 个 或 者 某 几 个 类 别 中, 如 图 4.1 所 示 。 常见 
的 文本 分 类 任务 包括 文本 主题 分 类 、 体 裁 分 类 、 垃 圾 邮件 识别 等 。 


图 4.1 文本 分 类 任务 示例 


早期 的 文本 分 类 方法 以 规则 方法 为 主 , 但 是 这 种 方法 往往 需要 专家 精心 制定 分 类 规 
W, 规则 集 的 建立 和 维护 都 非常 耗 时 耗 力 。20 世纪 90 年 代 以 后 , 随 着 统计 机 器 学 习 算 
法 的 兴起 , 基于 监督 机 器 学 习 的 分 类 算法 在 文本 分 类 任务 中 取得 了 很 大 的 成 功 。 常见 的 
文本 分 类 算法 包括 : 朴素 贝 叶 斯 (naive Bayes, NB) . Logistic EIJI, AKA (maximum 
entropy, ME) 模型 和 支持 向 量 机 (support vector machine, SVM) 等 。 近 年 来 ， 以 卷 积 
神经 网 络 和 循环 神经 网 络 为 代表 的 深度 神经 网 络 技术 在 文本 分 类 任务 上 都 取得 了 较 大 的 
进展 , 逐渐 发 展 成 为 当下 研究 中 的 主流 方法 。 

基于 传统 机 器 学 习 方法 的 文本 分 类 系统 可 以 示意 性 地 用 图 4.2 表示 , 它 主 要 由 文本 
表示 、 特 征 选择 、 分 类 器 设计 这 三 部 分 组 成 , 文献 [Sebastiani, 2002] 按照 这 一 基本 结构 
对 文本 分 类 技术 进行 了 综述 。 本 章 首先 遵循 这 一 结构 顺序 介绍 基于 传统 机 器 学 习 方 法 的 
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文本 分 类 方法 , 然后 单独 介绍 基于 深度 神经 网 络 的 文本 分 类 方法 , 最 后 介绍 文本 分 类 中 
的 性 能 评估 方法 。 


文本 表示 [| 特征 降 维 [| 分 类 器 设计 


图 4.2 基于 传统 机 器 学 习 的 文本 分 类 系统 框架 


4.2 ”传统 文本 表示 


在 文本 分 类 任务 中 , 如何 准确 、 高 效 地 表示 一 个 文本 对 于 后 续 的 分 类 算法 非常 重要 。 
一 方面 要 求 表示 方法 能 够 真实 地 反映 文本 的 内 容 ， 另 一 方面 ， 又 要 求 该 方法 对 不 同类 型 
的 文本 有 足够 的 区 分 能 力 。 本 书 第 3 章 已 经 介绍 了 常见 的 文本 表示 方法 , IKE AMER. 
但 需要 进一步 说 明 的 是 ， 对 于 不 同 的 分 类 模型 ， 其 相应 的 文本 表示 方法 也 有 所 不 同 。 如 
传统 的 线性 分 类 模型 (如 Logistic 回归 、 线 性 支持 向 量 机 ) 通常 以 向 量 空间 模型 进行 文 
本 表示 ， 而 生成 式 模型 的 文本 表示 则 是 由 类 条 件 分 布 假设 确定 ， 如 在 朴素 贝 叶 斯 模型 中 
多 项 分 布 (multinormial distribution) 假设 对 应 的 是 词 袋 模型 ( 词 袋 模型 与 向 量 空间 模 
型 是 类 似 的 , 但 它 不 支持 实数 值 特征 )。 

用 向 量 空间 模型 进行 文本 表示 需要 经 过 以 下 两 个 主要 步骤 : 一 是 根据 训练 集 生成 文 
本 特征 序列 , 二 是 依据 特征 序列 对 训练 文本 集 和 测试 样本 集中 的 各 个 文档 进行 赋 权 值 和 
规范 化 等 处 理 , 将 其 转化 为 机 器 学 习 算 法 所 需 的 特征 向 量 。 需要 注意 的 是 , 向 量 空 间 模 
型 虽然 简单 、 高 效 , 但 是 它 丢 失 了 原始 文档 的 很 多 信息 ， 因 此 , 为 了 提高 文本 分 类 的 性 
E， 往 往 需 要 借助 特征 工程 向 特征 空间 中 引入 更 多 的 语言 学 特征 ， 如 n 元 词 序 信息 、 句 
法 信息 和 语义 信息 等 。 另外 , 对 于 不 同 的 文本 分 类 任务 , 甚至 对 于 不 同 的 语 料 , 所 采用 的 
最 优 特征 权重 方法 也 有 所 不 同 。 如 在 文档 主题 分 类 任务 中 , TF-IDF 权重 常常 效果 最 好 ， 
而 在 文本 情感 分 类 任务 中 ，Bool 权重 则 得 到 了 更 加 广泛 的 使 用 。 

表 4.1 给 出 了 一 个 文本 分 类 数据 集 ， 该 数据 集 的 类 别 包括 “教育 ”和 “体育 ”两 个 类 
别 , 训练 集中 每 个 类 别 各 有 两 个 文档 , 测试 集 一 共 包括 两 个 文档 。 表 4.2 给 出 了 该 数据 集 
对 应 的 词 表 , 每 个 文档 可 以 表示 为 以 词 表 作为 基 的 向 量 空间 中 的 一 个 向 量 。 

表 4.1 文本 分 类 数据 集 


序号 x Š 类 别 

train_di 北京 理工 大 学 计算 机 专业 创建 于 1958 年 是 中 国 最 早 设 立 计 算 机 专业 的 ”教育 
高 校 之 一 

traindo 北京 理工 大 学 学 子 在 第 四 届 PH 计算 机 HH 锦标 赛 中 夺冠 教育 
train_d3 北京 理工 大 学 体育 馆 是 2008 年 PHY 北京 奥林匹克 运动 会 的 排球 预赛 场地 体育 
traind 第 五 届 东亚 运动 会 PH 军团 奖牌 总 数 创 新 高 男女 排球 双双 夺冠 体育 
test 由 ”北京 理工 大 学 是 理工 为 主 工 理 文 协调 发 展 的 全 国 重点 大 学 
test_d2 复旦 大 学 排球 队 获得 本 届 KFE 运动 会 排球 比赛 冠军 
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表 4.2 文本 分 类 数据 集 ( 表 4.1) 对 应 的 词 表 
奥林匹克 北京 博 弃 场地 创 创建 大 学 第 四 第 五 东亚 夺冠 高 校 计算 机 奖牌 届 锦标 赛 军团 
理工 男女 年 排球 设立 双双 体育 馆 新 高 学 子 预赛 运动 会 之 一 中 中 国 专业 总 数 最 早 


4.3 特征 选择 


传统 的 向 量 空间 模型 基于 高 维 稀 玻 的 向 量 表 示 文 本 ， 因 此 , 在 进行 分 类 算法 之 
前 通常 需要 对 高 维 的 特征 空间 进行 降 维 。 降 维 方法 主要 分 为 两 类 : 特征 提取 (feature 
extraction) 和 特征 选择 (feature selection) 。 

特征 提取 的 目的 是 将 原始 的 高 维 稀 玻 特征 空间 映射 为 低 维 稠密 的 特征 空间 。 在 模式 
识别 领域 , 经 典 的 特征 提取 方法 有 主 成 分 分 析 (principal component analysis, PCA) 方 
法 和 独立 成 分 分 析 (independent component analysis, ICA) 方法 等 , 但 是 这 些 方法 在 文 
本 分 类 中 并 不 常用 。 曾 有 学 者 基于 潜在 语义 索引 datent semantic indexing, LSI) 进行 文 
本 降 维 ， 该 方法 使 用 文本 的 主题 特征 代替 传统 特征 ， 降 维 作用 显著 , 但 是 单独 使 用 主题 
特征 往往 效果 一 般 。 实际 上 , 在 自然 语言 处 理 领 域 LSI 与 PCA 属于 同 源 的 方法 , 其 本 
质 都 是 进行 奇异 值 分 解 (singular value decomposition, SVD) 。 此 外 ,概率 潜在 语义 分 
析 (probabilistic latent semantic analysis, PLSA) 和 潜在 狄 利 克 雷 分 布 (latent Dirichlet 
allocation, LDA) 模型 也 曾 被 应 用 于 文本 分 类 特征 降 维 , 但 是 因 效 率 和 效果 欠 佳 都 未 获 
得 大 规模 的 应 用 。 

特征 选择 是 从 特征 空间 中 择优 选 出 一 部 分 特征 子 集 的 过 程 。 文 本 分 类 领域 常见 的 特 
征 选择 方法 包括 无 监督 特征 选择 和 有 监督 特征 选择 两 类 。 前 者 可 以 应 用 于 没有 类 别 标注 
的 语 料 ( 如 文本 聚 类 ), 但 是 效果 往往 较 差 , 常见 方法 包括 基于 词 频 TF (或 者 文档 频率 
DF) 的 特征 选择 。 后 者 依赖 于 类 别 标注 信息 , 可 以 有 效 地 针对 分 类 问题 选择 出 较 优 的 特 
征 子 集 , 常见 方法 包括 互信 息 法 (MID、 信 息 增益 法 IG) 和 卡 方 统 计量 法 (x?) 等 。 文 
献 [Yang and Pedersen, 1997] 和 [Forman, 2003] 总 结 了 文本 分 类 中 的 特征 选择 方法 , 并 
指出 , 一 个 好 的 特征 选择 算法 可 以 有 效 地 对 特征 空间 进行 降 维 , 提高 分 类 器 的 效率 , 同 
时 去 除 元 余 特 征 和 噪声 特征 ,提高 文本 分 类 的 性 能 。 

本 节 主 要 介绍 文本 分 类 中 的 有 监督 特征 选择 方法 。 


43.1 互信 息 法 


在 信息 论 中 , 假设 X 是 一 个 离散 型 随机 变量 ， 其 概率 分 布 为 p(z) = P(X = z), Hb 
A, X HIRI Centropy) H(X) 定义 为 : 


H(X) = 一 》p(z)logp(z) (4.1) 
WBA A fa. 用 于 度量 一 个 随机 变量 的 不 确定 性 。 SL IT, 


其 不 确定 性 越 大 , 表示 该 变量 所 需要 的 信息 量 越 大 ; RZ WR, 则 不 确定 性 越 小 , R 
示 该 变量 所 需要 的 信息 量 也 越 小 。 
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假设 X ALY 是 一 对 随机 变量 ， 服 从 联合 分 布 p(z;y) = P(X =2,Y =y), WA, 
X,Y WKAR (joint entropy) 定义 为 : 


H(X,Y)=— YY p(æ,y)logp(z,y) (4.2) 


HKA RI HR H E A m — BL eT a EF at 
ZÆ MERI (conditional entropy) 描述 的 是 在 已 知 随机 变量 X 取 值 的 前 提 下 , 随机 变 
EY 的 不 确定 性 程度 。 或 者 说 , 在 已 知 X 取 值 的 条 件 下 , KR Y 还 需要 的 额外 信息 量 。 
定义 如 下 : 
H(Y|X) => p(2)H (YIX =2) 
=— >, Yo p(z,y)logp (ylz) (4.3) 
z y 
“ADS Y 的 值 完 全 由 六 WEN, A(Y|X)=0; RZ, 当 且 仅 当 Y Al X 相互 独立 
it, H(Y|X) = H(Y). 
Ri AAR PEGG 
H(Y|X) = H (X,Y) —H(X) (4.4) 
图 4.3 HR EGR ie ZA Ro Ac A TE Ae NG H(X), 右 侧 的 圆 形 表 
Ahi AY), PSSA (X,Y), Acti A AIBA AEN 五 (XIY)， 


ATW AIBA ER HY |X) WA, 两 个 圆 形 的 交集 表示 什么 呢 ? 这 就 是 我 们 下 
面 要 引入 的 互信 息 (mutual information, MD I(X;Y). 


HX) HY) 


H(X,Y) 


图 4.3 Ri KER, AES EE ARR 


互信 息 反应 的 是 两 个 随机 变量 相互 关联 的 程度 。 对 于 离散 随机 变量 X 和 YY, 其 互信 
息 定义 为 


1Y) = Dopey) log PED (45) 


焙 、 条 件 米 和 互信 息 之 间 存 在 如 下 关系 : 


I(X;Y) =H (Y) —H(¥|X) =H (X) -H (X|Y) (4.6) 
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两 个 随机 变量 的 互信 息 是 变量 间 相 互 依赖 性 的 量度 , 它 可 以 看 成 是 一 个 随机 变量 中 
包含 的 关于 另 一 个 随机 变量 的 信息 量 , 或 者 说 是 一 个 随机 变量 由 于 已 知 另 一 个 随机 变量 
而 减少 的 不 确定 性 。 

H Ie) = bee Foe 记 为 随机 变量 (X,Y) 取 确定 值 (x, y) 时 的 点 式 互信 
AA (pointwise mutual information, PMI) 。 由 公式 (4.5) 可 以 看 出 ,互信 息 是 点 式 互信 
息 的 期 望 。 在 文本 分 类 中 , 通常 用 点 式 互 信息 衡量 特征 项 t; 透露 类 别 cj 的 信息 量 。 

对 于 给 定 的 语 料 , 首先 针对 每 个 特征 ti 和 每 个 类 别 cjo AIR 4.3 中 的 数值 。 表 中 
的 Ne 表示 特征 项 去 在 第 cj 类 文档 中 出 现 的 文档 频率 ，Ni,,a, 表示 特征 项 去 在 所 有 
非 第 cy 类 文档 中 出 现 的 文档 频率 ，Ni,。, 表示 去 以 外 的 所 有 特征 项 在 第 c; 类 文档 中 出 
现 的 文档 频率 ，Na as K ti 以 外 的 所 有 特征 项 在 所 有 非 第 c; 类 文档 中 出 现 的 文档 频 
Z, N = Aij + By 十 Cij 十 Di 表示 文档 总 数 。 


表 4.3 按 特 征 和 类 别 统计 的 文档 频率 


类 别 中 

特征 id 
ti Niiey Niiay 
fi Ni z Ni,,z, 


之 后 , 根据 最 大 似 然 估计 原理 , 用 频率 估计 以 下 概率 : 
Nic; + Naé 


D(ci) = B (4.7) 
plti) = Nie t Nua J Mes (4.8) 
p (cilti) = Net eM (4.9) 
P (cil) = eS (4.10) 


为 了 防止 出 现 零 概率 事件 , p (cjlti) 和 p (elti) 的 估计 可 使 用 拉 普 拉 斯 平滑 (分母 中 的 
M 为 类 别 数 )。 
那么 , ti 和 cj 之 间 的 互信 息 了 (ti; cj) 可 以 计算 为 : 
Nie; N 
(Nines + Nines) (Nees + Neas) 


I (ti; cj) = log (4.11) 


为 了 衡量 特征 项 志 对 于 全 部 类 别 的 信息 量 , 可 以 对 各 类 按 概 率 加 权 平 均 (也 可 以 理 
解 为 特征 项 与 类 别 随机 变量 C 的 互信 息 ) 


Tavg(ti) = 2 Pp (ce) (tise) (4.12) 


或 者 取 各 类 中 的 最 大 值 
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Trax (ti) = max {I (ti 07)} (4.13) 


作为 该 特征 的 互信 息 值 。 

特征 选择 的 过 程 是 对 全 部 的 特征 项 计算 互信 息 值 , 按照 得 分 进行 排序 , 最 终 选择 排 
在 前 面 的 一 部 分 特征 作为 优选 的 特征 子 集 。 表 4.4 给 出 了 用 MI 法 对 文本 分 类 数据 集 
CR 4.1) 进行 特征 选择 的 结果 。 


表 4.4 用 MI 法 对 文本 分 类 数据 集 ( 表 4.1) 进行 特征 选择 的 结果 
特 E MI 
计算 机 排球 运动 会 0.2877 
1958 2008 奥林匹克 博弈 场地 创 创建 第 四 第 五 东亚 高 校 奖牌 锦标 赛 军团 男女 0.1178 
设立 双双 体育 馆 新 高 学 子 于 预赛 在 之 一 中 专业 总 数 最 早 北京 大 学 理工 
的 夺冠 届 年 是 中 国 0.0000 


4.3.2 ”信息 增益 法 

信息 增益 (information gain, IG) 是 指 在 给 定 随 机 变量 X 的 条 件 下 ,随机 变量 
的 不 确定 性 减少 的 程度 : 

G(Y|X) =H (Y) -H (Y |X) (4.14) 

这 种 减少 的 程度 用 Y WR H (Y) RR H (Y |X) 之 间 的 差 值 表示 。 

在 文本 分 类 任务 的 特征 选择 中 ， 将 特征 项 有 © {tati} 看 作 一 个 服从 伯 努 利 分 
布 (Bernoulli distribution, 也 称 0-1 分 布 ) 的 二 元 随机 变量 ， 同 时 将 类 别 C 视 为 服从 类 
别 分 布 (categorical distribution) 的 随机 变量 , 那么 , 信息 增益 定义 为 烂 五 (C) 与 条 件 
Wi H(C|T,) 的 差 值 


G (T:) = H (C) - H (C|T;) 


=- J p(ġ)logp(c;) — (ec) 
- - 


3 
+ (- Zemmeemj| (4.15) 


信息 增益 考虑 了 {t,t} 两 种 情形 ,因此 可 以 写成 互信 息 Tt cj) A I(t cj) 的 加 权 
平均 [Yang and Pedersen, 1997]: 
G (Tj) = > plti, cj) (ti, c) + p (ti, cj) I (ti, c3) (4.16) 
j 
总 的 来 说 , IG 法 进行 文本 分 类 特征 选择 的 效果 比 MI 法 更 好 。 
表 4.5 给 出 了 用 IG 法 对 文本 分 类 数据 集 ( 表 4.1) 进行 特征 选择 的 结果 。 
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RAS 用 IG 法 对 文本 分 类 数据 集 CR 4.1) 进行 特征 选择 的 结果 
F 征 IG 
计算 机 排球 运动 会 0.1308 
1958 2008 奥林匹克 HH 场地 创 创建 第 四 第 五 东亚 高 校 奖牌 锦标 赛 军团 男女 0.0293 
设立 双双 体育 馆 新 高 学 子 于 预赛 在 之 一 中 专业 总 数 最 早 北京 大 学 理工 
的 夺冠 届 年 是 中 国 0.0000 


4.3.3 ” 卡 方 统 计量 

卡 方 (x?) 检验 是 以 分 布 为 基础 的 一 种 假设 检验 方法 ,其 基本 思想 是 通过 计算 观察 
值 与 期 望 值 的 偏差 确定 假设 是 否 成 立 。 卡 方 检验 常用 于 检测 两 个 随机 变量 的 独立 性 。 

在 特征 选择 中 , 定义 特征 项 到 € {ti t} 和 类 别 Cj © {cj,6j} 分 别 为 服从 伯 努 利 分 
布 的 二 元 随机 变量 , ti 和 去 分 别 表示 特征 项 去 出 现 和 不 出 现 , cj 和 总 分 别 表示 文档 类 
别 是 否 为 cj。 

首先 提出 原 假 设 : Ti 和 Cj 相互 独立 , B p(T, Cj) = p (Ti) p (Cy) FEM ETH 
Ti 和 每 个 类 别 C;, 计算 如 下 统计 量 : 

x2 (Ts,0)) = = Waar Er, c)? (4.17) 
Tift} CyE {05,85} TC 
其 中 , N 是 观察 频率 , E 是 符合 原 假 设 的 期 望 频率 。 例 如 ，Ne,e 是 基于 样本 集 观 测 得 到 
的 特征 项 去 出 现在 第 cj 类 文档 中 的 文档 频率 ， Eee; 是 指 在 原 假设 成 立 条 件 下 的 特征 项 
ti 出 现在 第 cj 类 文档 中 的 文档 频率 。 用 表 4.3 WS, Ere, 的 计算 如 下 : 
Ene; =N -p (tici) = N+P (ti) :P(e;) 
Nie; + Neue; Nesey + Nine; 
i N i N 
类 似 于 计算 En e> Eng; 和 Eng 代入 式 (4.17), 得 到 如 下 卡 方 统计 量 的 算式 : 


N (4.18) 


N+ (Newey Nias — Nise; Nuz)? 
(Nasc; + Nic) y (Nie; F Naz) $ (Niz; + Niz) : (Nic; 十 Naa) 
(4.19) 
2 (Ti C) 值 越 高 , BAYA 二 与 Cy 之 间 的 独立 假设 越 不 成 立 , 它们 的 相关 性 越 高 。 
同样 地 ， 对 x? (Ti, Ch) 按照 各 个 类 别 进行 加 权 求 和 或 者 取 最 大 , 可 以 度量 特征 项 T 
对 于 整个 分 类 任务 的 信息 量 : 


x? (Tj, Cj) = 


Xda (T) =, max, {x2 (1, 07)} (4.20) 
M 

Xe (Li) = > plc)? (Li, C3) (4.21) 
j=l 


FE 4.6 给 出 了 用 x? 法 对 文本 分 类 数据 集 ( 表 4.1) 进行 特征 选择 的 结果 。 
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表 4.6 Fy? 法 对 文本 分 类 数据 集 CR 4.1) 进行 特征 选择 的 结果 
特征 二 
计算 机 排球 运动 会 er 
1958 2008 奥林匹克 WA 场地 创 创建 第 四 第 五 东亚 高 校 奖牌 锦标 赛 军团 男女 1.3326 
设立 双双 体育 馆 新 高 学 子 于 预赛 在 之 一 中 专业 总 数 最 早 北京 大 学 理工 
的 夺冠 届 年 是 中 国 0.0000 


4.3.4 ”其 他 方法 


文献 [Nigam, 2000] 提出 了 一 种 加 权 对 数 似 然 几率 (weighted log-likelihood ratio, 
WLLR) 指标 用 于 度量 特征 项 t; 和 类 别 cj 的 相关 性 : 


p(tile;) 
p (tile;) 
Nic; Nie; (Nee; + Nia,) 
log 
= Na se + Nie Nisz; (Nesse; 十 Naa) 


WLLR(t;, cj) = p (ti|cj) log 一 -= 


(4.22) 


文献 [Li et al., 2009a] 进一步 分 析 了 MI, IG, x? 和 WLLR 等 六 种 特征 选择 方法 ， 
en 
均 可 写成 以 上 两 个 度量 的 组 合 形式 。 据 此 [Li et al., 2009a] 提出 了 一 种 通用 的 加 权 频 率 
和 比率 (weighted frequency and odd, WFO) 方法 : 


入 pile)N > 
WEFO (ti, cj) = p (tiles) (ee ru) 


( Neves 人 (4.23) 
Nae; + Nie; Nass (Nisses + Niise;) l 


fí 


假设 特征 选择 得 到 以 下 降 维 后 的 向 量 空间 : [计算 机 排球 运动 会 高 校 AF], 利用 
降 维 后 的 向 量 空间 对 文本 分 类 数据 集 ( 表 4.1) 进行 文本 表示 , 得 到 表 4.7 所 示 的 结果 。 


RAT 降 维 后 的 文本 分 类 数据 集 


序号 原始 文档 降 维 后 的 文档 ”类别 
traind ”北京 理工 大 学 计算 机 专业 创建 于 1958 年 是 中 国 最 早 设立 ”大 学 计算 机 AA 
计算 机 专业 的 高 校 之 一 计算 机 高 校 


traindo 北京 理工 大 学 学 子 在 第 四 届 PH 计算 机 博弈 锦标 赛 中 夺冠 大 学 计算 机 AA 
train_d3 北京 理工 大 学 体育 馆 是 2008 年 中 国 北京 奥林匹克 运动 会 的 ”大 学 运动 会 ”体育 


排球 预赛 场地 

traind, 第 五 届 东亚 运动 会 中 国 军团 奖牌 总 数 创 新 高 男女 排球 双双 ”运动 会 体育 
BE 

testd ”北京 理工 AF 是 理工 AL IPL 协调 发 展 的 全 国 重点 大 学 大 学 大 学 

test da 复旦 大 学 排球 队 获得 本 届 大 学 生 运动 会 排球 比赛 冠军 大 学 排球 
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一 个 文本 经 过 文本 表示 和 特征 选择 之 后 , 就 可 以 基于 传统 的 机 器 学 习 算法 进行 文本 
分 类 。 早期 的 文本 分 类 模型 包括 相似 度 模 型 (如 Rocchio、 天 -近邻 分 类 器 )、 决 策 树 等 ， 
得 到 了 广泛 使 用 的 文本 分 类 算法 , 包括 : 朴素 贝 叶 斯 模型 、Logistic PIER, RARE 
型 和 支持 向 量 机 等 。 


4.4.1 ”朴素 贝 叶 斯 模型 


贝 叶 斯 模型 属于 生成 式 模型 它 对 样本 的 观测 和 类 别 状态 的 联合 分 布 ple, y) 进行 
建 模 。 在 实际 应 用 中 ,联合 分 布 转换 为 类 别 的 先 验 分 布 p(y) 与 类 条 件 分 布 p(z|y) 乘积 
的 形式 : p (x,y) = p(y)p(aly) > 前 者 可 以 分 别 使 用 伯 努 力 分布 和 类 别 分 布 建 模 两 类 和 多 
类 分 类 的 类 别 先 验 概率 , 但 类 条 件 分 布 p(z|y) 的 估计 问题 是 贝 叶 斯 模型 的 难题 。 

在 文本 分 类 任务 中 , 为 了 解决 上 述 难 题 , 需要 对 文本 的 类 条 件 分 布 做 进一步 简化 。 

一 种 通常 的 做 法 是 忽略 文本 中 的 词 序 关系 , 假设 各 个 特征 词 的 位 置 是 可 以 互 换 的 , 即 我 
们 前 面 所 说 的 词 袋 (bag of words，BOW) 模 型 。 在 数学 上 , 这 样 的 简化 可 以 表示 为 在 给 
定 类 别 的 条 件 下 , 词 与 词 相互 独立 的 假设 。 基于 这 一 假设 , 类 条 件 下 的 文本 分 布 可 以 用 
多 项 分 布 刻 面 。 这 与 判别 式 模 型 中 文本 表示 采用 词 频 权重 的 向 量 空间 模型 的 做 法 是 一 致 
i 基于 以 上 条 件 的 贝 叶 斯 模型 称 为 朴素 贝 叶 斯 模型 (naïve Bayes, NB), 它 的 本 质 是 用 

合 的 多 项 式 分 布 刻 画 文 本 分 布 。 虽 然 朴 素 贝 叶 斯 模型 具有 很 强 的 假设 条 件 , 但 是 在 文 
peau neers 分 类 任务 中 ,仍然 不 失 为 简单 高 效 的 经 典 分 类 算法 。 

朴素 贝 叶 斯 模型 是 一 种 简化 的 贝 叶 斯 分 类 器 ,对 观测 向 量 zx 和 类 别 y 的 联合 分 布 

p(x, y) = ply)p(æly) (4.24) 
进行 建 模 。 通 常 假设 类 别 变 量 y 服从 伯 努 力 分 布 (两 类 问题 ) 或 分 类 分 布 Categorical 
distribution)( 多 类 问题 ), 并 根据 实际 任务 对 p(acly) 进行 合理 假设 。 朴 素 贝 叶 斯 分 类 器 
之 所 以 称 作 “ 朴 素 ”*， 是 因为 它 有 一 个 很 强 的 条 件 独 立 性 假设 : 在 给 定 类 别 的 条 件 下 , 各 
个 特征 项 之 间 相互 独立 。 在 图 像 分 类 等 任务 中 , 常常 假设 p(zly) 符合 高 斯 分 布 ， 而 在 文 
本 分 类 任务 中 , p(aly) 常见 的 分 布 假设 有 两 种 [McCallum and Nigam, 1998]: 多 项 分 布 
模型 (multinomial model) 和 多 变量 伯 努 利 分 布 模型 (multi-variate Bernoulli model). 
其 中 多 变量 伯 努 利 分 布 假设 只 关心 特征 项 是 否 出 现 , 而 不 记录 出 现 的 频次 , 在 实际 应 用 
P, 其 效果 往往 不 及 多 项 分 布 假设 。 因此 , 在 文本 分 类 任务 中 , 不 加 特别 说 明 的 朴素 贝 叶 
斯 模型 往往 都 是 指 基 于 多 项 式 分 布 假设 的 朴素 贝 叶 斯 模型 。 

下 面 以 多 项 分 布 模型 为 例 介 绍 朴素 贝 叶 斯 模型 。 首先 将 一 个 文档 x 表示 为 一 个 词 的 序列 


z= [ua ,wlal] (4.25) 
在 条 件 独 立 性 假设 下 , p(aly) 可 以 具有 多 项 分 布 的 形式 : 
plz|c;)= p([wi, we, +> + Wie] |e;) 
Vv 


= [[ rltiles (4.26) 


i=1 
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其 中 , V 是 词汇 表 维 度 , ti 表示 词汇 表 中 的 第 i 个 特征 项 , 令 04; = p(tile;) 表示 在 cj 类 
条 件 下 去 出 现 的 概率 ，N (ti, z) 表示 在 文档 æ P ti 的 词 频 。 
同时 , 我 们 以 多 类 问题 为 例 , 假设 类 别 y 服从 分 类 分 布 
P(Y=G) 三 7 (4.27) 
根据 多 项 分 布 模型 假设 , p (z,y) 的 联合 分 布 写 为 : 


plæ,y = cj) = p(c)P(@le) = 7; IOG iý (4.28) 
t=1 


其 中 ,9 为 模型 参数 。 
朴素 贝 叶 斯 模型 基于 最 大 似 然 估计 算法 进行 参数 学 习 , 给 定 训练 集 {zx, yes BE 

N 
型 以 对 数 似 然 函 数 工 (x,0) = log Tp (are, yx) 作为 优化 目标 对 优化 目标 求 导 置 零 ， 求解 


k=1 


得 到 模型 的 参数 估计 值 : 
N 
> I= c) 
k=1 

N C 

5 y T(yk = cj) 


Tj (4.29) 


i 
N 


下 > 


T(= = c)N (ti, £k) 
Oijj (4.30) 


Era =o E Ne zy) 


从 参数 估计 结果 可 以 看 出 , 在 多 项 分 布 假设 下 , 频率 正 是 概率 的 最 大 似 然 估计 值 。 
例如 ， 类别 概率 xj 的 最 大 似 然 估计 结果 是 训练 集中 第 j 类 样本 出 现 的 频率 ; 类 条 件 下 特 
征 项 概率 的 最 大 似 然 估计 结果 是 第 7 类 文档 中 , 所 有 特征 项 中 出 现 的 频率 。 为 了 防止 
零 概 率 情况 的 出 现 , 常常 对 9; 进行 拉 普 拉 斯 平滑 : 


N 
2 Yk = c)N (t£) +1 
bi =; (4.31) 
> >》 Iu Yk = Cj) N (tv, Tr) + V 


下 一 1 k=1 


利用 多 项 式 朴素 贝 叶 斯 模型 ,在 降 维 后 的 文本 分 类 训练 集 ( 表 4.7) 上 进行 模型 学 
习 , DIA t= 计算 机 , t= HERR, ta 二 运动 会 , = HB t= 大 学 , y= 1 表示 教育 
KR, y = 0 表示 体育 类 , 可 以 得 到 如 表 4.8 所 示 的 参数 估计 结果 。 
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HAS 朴素 贝 叶 斯 多 项 式 模 型 在 降 维 后 的 文本 分 类 训练 集 ( 表 4.7) 上 的 训练 结果 
p(y) p(y =1) =0.5 p(y =0)=0.5 
p(tily = 1) = 0.3 p(tı|y = 0) = 0.1 
p(tzly = 1) = 0.1 p(tzly = 0) = 0.3 
p(tily) pltaly = 1) =0.1 pltaly = 0) = 0.3 
p(taly = 1) =0.2 p(taly = 0) = 0.1 
pltsly = 1) =0.3 pltsly = 0) = 0.2 
基于 上 述 模 型 , 现 对 表 4.7 中 的 测试 文档 进行 分 类 。 令 测试 文档 test_di 的 文本 表示 


为 z1, 它 与 教育 类 和 体育 类 的 联合 概率 分 别 为 : 


p(a1,y = 1) = p(y =1)p(tsly = 1)” = 0.045 
p (21,y = 0) = p(y = 0) p(ts|y = 0)” = 0.020 


进一步 , 根据 贝 叶 斯 公式 计算 可 得 属于 两 类 的 后 验 概率 分 别 为 : 


0.045 
p(y = le) = T0400 一 0.692 


p (y = 0|z1) = 0.318 


因此 预测 test_d, 属于 教育 类 。 
同 理 , 测试 文档 test_ds 与 两 个 类 别 的 联合 概率 分 别 为 : 


D(zay = 1) = p(y = 1) pp (təly = 1) p(taly = 1) p (tsly = 1) 


p(x2,y = 0) = p(y = 0) p (tly = 0) p (tsly = 0) p (ts|y = 0) 


后 验 概率 为 : 


p(y = 1a) = 0.143 
p(y = 0|z2) = 0.857 


因此 预测 test_dy 属于 体育 类 。 


4.4.2 Logistic 回归 、Softmax E195 RAH IRZ 


0.0015 
0.0090 


虽然 术语 Logistic 回归 中 包含 “回归 ”一 词 , 但 它 却 是 一 个 地 地 道道 的 分 类 模型 ， 它 
是 一 个 线性 二 分 类 模型 ， 它 所 决定 的 分 类 面 是 一 个 关于 特征 空间 的 超 平 面 。 以 下 仍 从 模 


型 假设 、 学 习 准 则 和 参数 估计 方法 三 个 方面 介绍 Logistic 回归 模型 。 


首先 引入 Sigmoid 函数 e (2) = yr ore 该 函数 可 以 将 实数 域 喘 射 为 0,1] 范围， 


此 常常 用 作为 概率 描述 。 它 的 一 阶 导数 具有 以 下 优良 性 质 : 


do(z) 


aa =o (z)(1—o(2)) 


(4.32) 
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对 于 一 个 二 分 类 问题 ， 类别 标 记 为 y E {0,1}, 特征 向 量 为 z， 权重 向 量 记 作 
0. Logistic 回归 定义 了 给 定 x, y € {0,1} 的 后 验 概率 ,形式 如 下 : 


ply = Lar; ) = he(z) =0(0Tz) (4.33) 
p(y = Ola; 0) = 1 — ho (x) 


其 中 , 特征 向 量 的 线性 加 权 OT a 经 过 Sigmoid 函数 映射 为 [0,1] 概率 区 间 。 上 述 两 式 可 
以 写成 如 下 简洁 的 形式 : 


plylz; 0) = (he(z))(1 一 he(z))0 =» 


1 Y 1 (1-y) 
(i 十 = (: 1+ Ls) oie 


对 于 式 (4.34) 给 定 的 模型 假设 , Logistic 回归 基于 最 大 似 然 估 计 准 则 进行 参数 学 习 。 
给 定 训练 集 {(zi ga)} i= 1,… N, 模型 的 对 数 似 然 函 数 为 : 


(0) = > yilog ho(zi) + (1 — yi)log (1 — ho (as)) (4.35) 
i=l 

通常 使 用 梯度 上 升 法 、 随 机 梯度 上 升 法 求解 上 述 对 数 似 然 函数 的 最 优化 问题 ， 除 
此 之 外 ，BFGS (Broyden-Fletcher-Goldfarb-Shanno) 算法 、L-BFGS (imited-memory 
BFGS) 等 拟 牛 顿 法 算法 在 大 规模 数据 的 Logistic 回归 模型 中 也 使 用 广泛 。 

将 Logistic 回归 从 两 类 分 类 问题 推广 到 多 类 问题 , 称 为 多 类 Logistic 回归 ， 也 称 为 
Softmax 回归 。Softmax 回归 常常 作为 深度 神经 网 络 的 最 后 一 层 执行 分 类 任务 。 

假设 给 定 x KI y = cj 的 后 验 概率 具有 以 下 Softmax 函数 形式 : 


p(y = cj|2; ©) = h;(x) 


or 
= ee (4.36) 


> exp(67 2) 


=1 


其 中 ， 参数 空间 ©= {0;},j 1,--- Co 
根据 模型 假设 , 给 定 训练 集 {(zi; yi)}> Softmax 回归 的 对 数 似 然 函数 为 : 


N C 
FL(B)= >》 >IT(y = c;)log 万 (zi) (4.37) 
ija 
Softmax [E] JEA (15 Gi MT AUNAR PR BUA BERR E AR PBL. 
值得 一 提 的 是 ,Softmax 回归 和 朴素 贝 叶 斯 可 以 看 作 一 个 “判别 式 -生成 式 ” 模型 对 ， 
这 在 文献 Ng and Jordan, 2002] 中 有 具体 的 论述 。 
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在 自然 语言 处 理 领域 , 还 有 一 个 与 之 殊途同归 、 引 入 原理 不 同 但 形式 非常 相似 的 模 
W, PAAR (maximum entropy, ME) 。 该 模型 假设 给 定 状态 条 件 下 观测 值 的 后 
验 概率 分 布 具 有 对 数 线性 方程 的 形式 ， 并 利用 最 大 似 然 估计 或 最 大 焙 准 则 进行 参数 训练 。 

需要 注意 的 是 ， 最 大 焙 模 型 中 的 特征 与 Softmax 回归 中 的 特征 定义 略 有 区 
别 。Softmax 回归 是 在 向 量 空间 模型 中 定义 特征 向 量 ,支持 连续 的 实数 特征 ， 而 最 
硕 模型 是 利用 特征 函数 描述 样本 观测 与 类 别 的 关联 性 ， 只 支持 0-1 特征 。 特征 函 
数 (feature function) 描述 输入 a 和 输出 y 之 间 已 知 的 事实 关系 : 


1，z 满 足 某 一 事实 ， 且 y 为 某 一 类 别 


0， 其 他 (438) 


fi (x,y) = { 

以 表 4.7 的 文本 分 类 数据 集 为 例 , OO EGE AT AREAN: 输入 oe 包含 “大 学 ” 

且 输出 y 为 “教育 ” 类; 输入 zx 包含 “运动 会 ” 且 输 出 y 为 “体育 ”类 ; 输入 z 第 一 个 词 
为 “大 学 ” 第 二 个 词 为 “运动 会 ” 且 输 出 y 为 “体育 ” 类; 等 等 。 当 最 大 焙 模型 的 特征 模板 
与 Softmax 回归 的 向 量 空间 模型 定义 一 致 时 , 最 大 炉 模 型 和 Softmax 回归 模型 是 等 价 的 。 


4.4.3 ”支持 向 量 机 


支持 向 量 机 (support vector machine，SVM) 是 统计 机 器 学 习 领 域 富有 盛名 的 分 类 
算法 。 它 的 两 个 核心 思想 是 : 寻找 具有 最 大 类 间距 离 的 决策 面 ; @ 通 过 核 函数 在 低 维 
空间 计算 并 构建 分 类 面 , 将 低 维 不 可 分 问题 转化 为 高 维 可 分 问题 。 SVM 具有 深厚 的 统 
计 学 习 理论 背景 , 它 基 于 结构 风险 最 小 化 理论 在 特征 空间 中 建构 最 优 分 类 超 平面 , 使 学 
习 器 得 到 了 全 局 最 优化 , 并 且 在 整个 样本 空间 的 期 望 风险 以 某 个 概率 满足 一 定 的 上 界 约 
束 。 基 于 线性 核 函数 的 支持 向 量 机 在 文本 分 类 中 有 着 非常 广泛 的 应 用 。 

前 文 提 及 的 Logistic 回归 模型 都 是 线性 分 类 模型 。 对 于 一 个 线性 可 分 的 两 分 类 任务 ， 
如 何 找到 最 优 的 线性 分 类 面 , 不 同 的 分 类 器 具有 不 同 的 训练 准则 。 如 感知 机 依据 感知 机 
准则 , 逻辑 回归 模型 依据 最 小 交叉 烂 准 则 等 。 线性 SVM 也 是 一 种 两 分 类 任务 的 线性 分 
类 模型 , 它 所 采用 的 分 类 准则 称 为 最 大 间隔 准则 (maximum margin criterion) 。 

对 于 线性 分 类 模型 

jJ(z)=aoTz+D (4.39) 
其 线性 分 类 面 为 wTz +b = 0。SVM 采用 最 大 分 类 间隔 (maximum margin) 作为 模型 
训练 准则 。 最 大 分 类 间隔 准则 用 公式 可 以 表示 为 : 


1 
max zllwl? 
st. yi(w"zi+b)>1, i=1,---,N (4.40) 
可 以 看 出 , 这 是 一 个 标准 的 二 次 优化 问题 , 其 目标 函数 是 二 次 的 , 约束 条 件 是 线性 
的 。 该 问题 可 以 用 任何 现成 的 二 次 规划 (quadratic programming) 优化 包 进行 求解 。 
鉴于 上 述 优化 问题 的 特殊 结构 ,SVM 通过 拉 格 朗 日 对 偶 法 将 公式 (4.40) 所 示 的 原 
问题 转化 为 下 列 对 偶 问 题 以 进行 更 加 高 效 的 求解 : 


66 第 4 章 文本 分 类 


N 1 
Toe 29 =3 bP YiYjaiAj (Li, Lj) 
i= 


ij=1 


s.t. œ; 20,i=1,---,N 
N 
> ay =0 (4.41) 
i=1 


其 中 a; > 0 是 拉 格 朗 日 乘 子 。 对 偶 问 题 符 合 KKT 条 件 (KKT (Karush-Kuhn- 
Tucker) condition)， 根 据 KKT Att: 仅 在 分 类 边界 上 的 样本 ai > 0, 其 余 样 本 ai = 0， 
并 由 此 可 得 分 类 面 仅 由 分 类 边界 上 的 样本 所 支撑 。 这 也 是 支持 向 量 机 得 名 的 由 来 。 


在 实际 应 用 中 , 为 了 排除 训练 集中 的 野 点 对 于 分 类 面 的 影响 , 通常 定义 软 间隔 准则 ， 
对 最 大 分 类 间隔 准则 进行 如 下 修正 : 


N 
1) ie 
max allwl + 22 


s.t. yi (wla; +b) > 1- é 
& 20,i=1,---,N (4.42) 
其 中 i 为 容错 因子 , C 为 容错 项 的 权重 参数 。 其 相应 的 对 偶 问 题 为 ; 


N 


1 m 
max > am =5 bD Yay W404; (Li, Lj) 


i=1 ij=1 


st. 0<, iS= lN 
N 
> aim =0 (4.43) 
i=l 


同时 , SVM 引入 核 函 数理 论 将 低 维 的 线性 不 可 分 问题 转化 为 高 维 的 线性 可 分 问题 。 
核 函数 (kernel function) 定义 为 核 数 据 在 高 维 空间 的 内 积 
K(x,z) = p(x)" (z) (4.44) 
根据 式 (4.43), SVM 中 样本 x 所 涉及 的 运算 均 为 内 积 运算 。 因 此 , 无 需 知道 低 维 到 高 维 
映射 的 具体 形式 , 只 需 知道 核 函数 的 形式 , 就 可 以 在 高 维 空间 建立 线性 SVM 模型 。 此 时 
对 应 的 对 偶 问题 为 : 
N 1 m 
max W (a) = b> o 一 了 YiyjaiajK (zi, £3) 
i=1 i,j=1 


st. Sasis LN 


N 
> ai =0 (4.45) 
t1 
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决策 函数 为 : 
N 
f(z) = > uilo (wi) p (2)) +0" 
pe 
= ok (x£) +0" (4.46) 
tl 
常见 的 核 函数 包括 : 


o 线性 核 函 数 : K(x, z) = zTz; 
e 多 项 式 核 函 数 : K(z,z) = (a?z +c)": 


26? 
另外 还 有 Sigmoid 核 函 数 、pyramid 核 函 数 、string 核 函 数 和 tree 核 函 数 等 。 由 于 文本 
分 类 任务 中 特征 空间 维度 较 高 , 通常 来 说 都 是 线性 可 分 的 ， 因此 线性 核 函 数 是 最 常 被 选 
择 的 。 

前 文 介绍 了 利用 对 偶 优 化 将 原 问 题 转化 为 公式 〈4.45) 所 示 的 对 侦 问 题 , 下 一 步 
还 需 进 一 步 求解 对 偶 问 题 得 到 最 优 参数 a*， 比 较 有 代表 性 的 方法 是 SMO (sequential 
minimal optimization) 算法 [Platt, 1998], 这 里 不 再 多 述 。 

SVM 作为 一 种 传统 的 统计 分 类 方法 , 在 20 世纪 末 和 21 世纪 初 的 文本 分 类 任务 中 
有 着 非常 广泛 的 应 用 。 根据 论文 [Yang and Liu, 1999] 的 实验 结果 , SVM 对 于 主题 文本 
分 类 的 效果 明显 好 于 NB、 多 层 前 馈 神 经 网 络 和 分 段 线性 拟 合 等 方法 , 与 -近邻 方法 效 
果 相 当 , 甚至 更 好 。 在 [Pang et al., 2002] 给 出 的 实验 中 , 利用 一 元 语法 特征 , SVM 在 电 
影评 论语 料 上 的 分 类 性 能 高 于 NB 和 ME 方法 。 


o 径 向 基 核 函数 : K (x, z) = exp (Eat) 


4.4.4 ”集成 学 习 


集成 学 习 (ensemble learning) 也 称 组 合 分 类 器 , 就 是 将 多 个 分 类 器 ( 弱 分 类 器 ) 的 
输出 融合 为 一 个 精度 更 高 的 分 类 器 ( 强 分 类 器 ) 的 过 程 近年 来 集成 学 习 成 为 机 器 学 习 
领域 研究 的 一 个 重要 分 支 。 产生 多 个 基 分 类 器 的 方式 主要 有 三 种 : 通过 训练 不 同 的 数 
据 集 产生 不 同 的 分 类 器 ; @ 基 于 不 同 的 特征 集合 进行 训练 得 到 不 同 的 基 分 类 器 ; @@ 通 过 
不 同 的 分 类 算法 产生 不 同 的 基 分 类 器 。 

著名 的 Bagging (bootstrap aggregating) 算法 和 Boosting 算法 均 以 第 一 种 方式 产 
生 基 分 类 器 。Bagging 算法 是 [Breiman, 1996] 提出 的 , 其 思想 是 对 训练 集 按 可 放 回 的 方 
式 抽 取 训 练 样本 , 为 每 个 基 分 类 器 构造 除 一 个 跟 原始 训练 集 规模 一 致 的 训练 集 ， 从 而 训 
练 出 不 同 的 基 分 类 器 。Boosting 算法 是 另 一 类 代表 性 的 集成 学 习 算法 , 它 首 先 给 每 个 样 
本 赋予 相同 的 权重 , 然后 训练 第 一 个 基 分 类 器 , 并 用 它 对 训练 集 进行 测试 , 对 那些 分 类 
错误 的 样本 提高 权重 , 然后 用 调整 的 加 权 训 练 集训 练 第 二 个 基 分 类 器 , 如 此 重复 , 直至 
学 习 到 一 个 足够 好 的 分 类 器 。Boosting 算法 有 许多 不 同 的 变种 ，[Freund and Schapire, 
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1996] 提出 的 AdaBoost 算法 是 其 中 的 代表 。 分 类 器 集成 的 算法 也 非常 多 , 常见 的 有 三 
类 : 固定 的 规则 、 加 权 规 则 和 元 学 习 方 法 。 

集成 学 习 在 文本 分 类 领域 获得 了 成 功 的 应 用 。[Larkey and Croft, 1996] 是 早期 具有 
代表 性 的 一 项 工作 , 它 将 不 同 的 机 器 学 习 算法 进行 组 合 , 得 到 了 一 个 比 基 分 类 器 性 能 更 
优 的 组 合 分 类 器 。[Schapire and Singer, 2000] 提出 了 一 种 基于 Boosting 算法 的 文档 分 
类 系统 BoosTexter, 在 当时 表现 出 了 比 传统 算法 更 好 的 性 能 。 


4.5 ”深度 神经 网 络 方法 


传统 的 文本 表示 和 分 类 算法 依赖 人 工 设计 的 特征 工程 ,具有 纬度 高 、 稀 足 性 强 、 表 
达能 力 差 、 不 能 自动 学 习 等 诸多 缺点 。 近 年 来 ， 以 深度 神经 网 络 为 代表 的 深度 学 习 技术 
自从 在 语音 识别 和 图 像 处 理 领域 取得 了 较 大 突破 之 后 ,以 其 强大 的 特征 自学 习 能 力 ( 尤 
其 端 到 端的 联合 学 习 框 架 ), 在 自然 语言 处 理 领 域 获得 了 广泛 的 应 用 , 在 包括 文本 分 类 在 
内 的 诸多 任务 上 都 取得 了 较 大 的 进展 , 目前 已 经 发 展 成 为 主流 方法 。 

以 下 简要 介绍 几 种 用 于 文本 分 类 的 神经 网 络 方法 。 


45.1 多 层 前 馈 神经 网 络 


多 层 感知 器 (multi-layer perceptron, MLP) 是 一 种 前 向 结构 的 人 工 神 经 网 络 
(artificial neural network) ， 它 通过 全 连接 的 方式 映射 一 组 输入 向 量 到 一 组 输出 向 量 ， 
若干 神经 元 被 分 层 组 织 在 一 起 便 组 成 了 神经 网 络 , 如 图 4.4 所 示 。 与 单个 神经 元 相 比 , 多 
层 感 知 器 增加 了 隐藏 层 (hidden layer), 并 在 隐藏 层 的 神经 元 中 增加 了 激活 函数 , 用 于 进 
行 非 线性 变换 ， 从 而 使 多 层 感知 器 能 够 表示 所 有 的 函数 映射 。 


输出 层 


图 4.4 三 层 前 馈 神 经 网 络 结构 


图 4.4 给 出 了 一 种 三 层 前 馈 神经 网 络 的 结构 , 它 由 输入 层 、 隐藏 层 和 输出 层 组 成 。 假 
设 ze 了 RM ,je 了 sy € R° 分 别 为 输入 层 、 隐藏 层 和 输出 层 的 表示 向 量 , 每 层 节点 通过 
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全 连接 相关 联 , W < 了 RMxS3 和 了 eR 分 别 是 输入 层 与 隐藏 层 、 隐 藏 层 与 输出 层 之 
间 的 连接 权重 矩阵 。 上 述 网 络 结构 可 以 描述 为 如 下 公式 : 


M 
bn =9 (an) =o (> Vind + n) (4.47) 
sS 
Gj = 0 (Bi) = 0 (> whjbh + s) (4.48) 
h=1 


其 中 , o( +) 为 非 线 性 激活 函数 (如 Sigmoid 函数 )。 
给 定 训练 集 刀 = {(@1,y1) , (ZT2,y2),… , (ZN,YN)}, 定义 以 下 最 小 二 乘 损失 函数 : 


z- 拉 ya - v)? (4.49) 


则 模型 学 习 的 过 程 就 是 最 优化 损失 函数 以 确定 模型 最 优 参数 的 过 程 。 前 馈 神 经 网 络 基于 
误差 反 向 传播 算法 (Backpropagation, BP) 进行 参数 学 习 ， 其 本 质 是 多 层 神 经 网 络 结构 
上 的 随机 梯度 下 降 法 。 

尽管 深度 神经 网 络 在 文本 分 类 早期 研究 中 还 没有 大 规模 盛行 , 但 是 已 经 出 现 了 以 
多 层 前 馈 神经 网 络 为 代表 的 文本 分 类 用 神经 网 络 模型 [Yang and s pa 不 过 , 那 
时 的 神经 网 络 还 只 是 被 当 作 一 个 分 类 器 模块 , 在 传统 的 文本 分 类 系统 框架 下 , 文本 通 
过 向 量 空间 模型 被 表示 为 一 个 稀疏 向 量 z = [z1,22, 7z3,…] 之 后 作为 神经 网 络 的 输入 
层 ， 整 个 模型 并 没有 特征 自学 习 的 能 力 。 同 时 ,由 于 当时 数据 量 较 小 , 以 人 工 神 经 网 络 
为 代表 的 非 线性 分 类 器 并 没有 取得 显著 的 性 能 ,加 之 运算 开销 较 大 ,因此 并 没有 得 到 
青睐 。 

近年 来 ， 随 着 数据 量 的 增 大 、 运 算 性 能 的 提高 和 从 特征 表示 到 分 类 ， 以 及 端 到 端 
一 体 化 学 习 框架 的 应 用 ， 以 深度 学 习 重 新 冠 名 的 人 工 神经 网 络 模型 ， 包括 卷 积 神 经 网 
络 (convolutional neural network，CNN)、 循 环 神经 网 络 (recurrent neural network), 
长 短 时 记忆 (LSTM) 网 络 等 , 在 文本 挖掘 领域 取得 了 巨大 的 成 功 。 


4.5.2 ” 卷 积 神经 网 络 


卷 积 神经 网 络 (convolutional neural network,CNN) 是 一 种 前 馈 神经 网 络 , 它 由 一 
个 或 多 个 卷 积 层 (convolution layer) 与 池 化 层 (pooling layer) 的 连接 以 及 最 后 的 全 连接 
Je (fully connected layer) 构成 。 与 多 层 前 馈 神 经 网 络 相 比 , 卷 积 神经 在 结构 上 具有 局 部 
连接 、 权 重 共享 和 空间 次 采样 的 特点 ， 具 有 较 少 的 网 络 参 数 。 图 4.5 给 出 了 一 个 卷 积 神 
经 网 络 基 本 结构 , 它 由 输入 层 、 卷 积 层 、 池 化 层 、 全 连接 层 和 输出 层 组 成 。 

基于 CNN 建立 文本 的 分 类 模型 ， 通 常 需要 如 下 几 个 步骤 : 

(1) 对 输入 文本 进行 形态 处 理 (汉语 分 词 ) 等 预 处 理 后 得 到 词 序列 , 使 用 词 向 量 (word 
vector) 对 词 进行 初始 化 ,得 到 输入 文本 的 矩阵 表示 形式 ， 作 为 神经 网 络 的 输入 。 
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图 4.5 SEF CNN 的 文本 分 类 模型 结构 


(2) 通过 卷 积 层 对 输入 进行 特征 提取 。 以 文献 [Zhang et al., 2017] 给 出 的 模型 
(图 4.5) 为 例 , 卷 积 层 设 置 了 2x5、3x5、4x5 三 种 尺寸 的 卷 积 核 (convolution kernel) , 
每 个 尺寸 具有 两 个 卷 积 核 。 需 要 说 明 的 是 , 在 文本 处 理 中 对 输入 文本 的 表示 矩阵 进行 卷 
积 操作 时 , 通常 只 在 一 个 方向 上 进行 二 维 卷 积 〈 即 卷 积 核 的 宽度 与 词 向 量 的 维度 保持 一 
致 ;， 同 时 设置 卷 积 操作 的 步 长 为 1, 使 用 每 个 卷 积 核对 输入 文本 的 表示 矩阵 进行 卷 积 操 
TE, 每 个 卷 积 核对 应 得 到 一 个 输入 文本 的 向 量 表示 。 


(3) 池 化 层 对 卷 积 层 输出 的 特征 向 量 分 别 进行 下 采样 , 之 后 拼接 得 到 进一步 抽象 的 
文本 表示 。 不 同 长 度 的 文本 经 过 卷 积 层 输出 的 特征 向 量具 有 不 同 的 维度 , 池 化 层 将 这 种 
特征 向 量 转化 为 相同 的 维度 。 如 图 4.5 所 示 , 对 每 个 特征 向 量 进行 最 大 池 化 , 拼接 后 得 到 
长 度 为 卷 积 核 数 目的 特征 向 量 。 通 过 全 连接 层 将 池 化 层 获 得 的 向 量 表示 映射 到 样本 的 标 
注 空间 , 维度 与 类 别 数 一 致 , 青 通 过 Softmax 函数 输出 每 一 类 的 预测 概率 ， 最 终 完 成 文 
本 分 类 。 
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论文 [Kim, 2014] 也 提出 了 一 种 使 用 卷 积 神经 网 络 对 句子 文本 进行 分 类 的 方法 , 在 文 
本 话题 分 类 、 情感 分 类 等 任务 上 都 取得 了 超越 经 典 机 器 学 习 方 法 的 效果 。[Kalchbrenner 
et al., 2014] 提出 了 一 种 动态 卷 积 神经 网 络 模 型 (dynamic convolutional neural network)， 
在 卷 积 层 对 句子 的 词 向 量 和 矩阵 进行 二 维 卷 积 后 , 使 用 动态 k-max 池 化 操作 对 其 进行 下 采 
样 ， 且 使 用 最 重要 的 几 个 特征 值 表示 局 部 特征 。[Zhang et al., 2015] 针对 英文 单词 是 由 
字符 组 成 的 这 个 特性 , 提出 了 字符 级 的 卷 积 神经 网 络 Ccharacter-level CNN), 在 更 细 粒 
度 上 对 英文 单词 进行 卷 积 处 理 , 在 相关 数据 集 上 取得 了 当时 最 佳 的 分 类 效果 。 

目前 卷 积 神经 网 络 主要 应 用 在 图 像 处 理 和 机 器 视觉 等 领域 , 而 自然 语言 处 理 的 对 象 
通常 是 一 段 具 有 循环 结构 的 文本 序列 , 往往 更 加 适合 利用 循环 神经 网 络 对 其 建 模 。 


4.5.3 ”循环 神经 网 络 
1. RNN, LSTM, Bi-LSTM 5 GRU 


递归 神经 网 络 是 时 间 递 归 神 经 网 络 和 结构 递归 神经 网 络 的 总 称 。 通 常 把 时 间 递 归 
神经 网 络 称 为 循环 神经 网 络 (recurrent neural network, RNN) ， 把 结构 递归 神经 网 络 
称 为 递归 神经 网 络 (recursive neural network) 。 在 下 文 的 叙述 中 如 果 不 加 特别 说 明 的 
话 ，RNN 均 指 循环 神经 网 络 。 

循环 神经 网 络 的 网 络 结构 如 图 4.6 所 示 , 左 侧 是 按时 序 循环 运行 的 网 络 结构 , 右 侧 
是 按时 序 展开 后 的 网 络 结构 。 设 zt 为 模型 t+ 时 刻 的 输入 ，o 为 模型 t+ 时 刻 的 输出 ,可 以 
看 出 t 时 刻 的 输出 不 仅 与 t 时 刻 的 输入 e 有 关 , 而 且 与 (t 一 1) 时 刻 的 隐 层 状态 s1 有 
Ko xi 和 oi 之 间 的 关系 可 以 用 下 面 的 公式 描述 : 


sı = f (Ux,+Ws,_1) (4.50) 
or =V es (4.51) 


其 中 , U e R'X4, W eR, V eR”? 分 别 是 输入 层 到 隐 层 、 隐 层 到 隐 层 、 隐 层 到 输 
BERRE, d, h, c 分 别 为 输入 层 、 隐 层 和 输出 层 的 维度 ，f 是 非 线 性 激活 函数 ， 
通常 设 为 tanh。o 经 过 Softmax 函数 得 到 各 类 输出 概率 


Px = Sofmax (oo) (4.52) 


: i te “te 
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图 4.6 循环 神经 网 络 结构 示意 图 
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RNN 的 模型 学 习 通常 采用 沿 时间 反 向 传播 算法 (back-propagation through time, 
BPTT), 它 是 前 馈 神 经 网 络 的 反 向 传播 算法 向 时 序 网 络 的 推广 , 其 本 质 是 基于 梯度 下 降 
算法 进行 模型 参数 优化 。 

针对 RNN 在 处 理 长 序列 输入 时 容易 出 现 梯 度 消失 或 梯度 爆炸 的 问题 ，[Hochreiter 
and Schmidhuber, 1997] 提出 了 长 短 时 记忆 (long-short-term memory, LSTM) 模型 。 之 
Ja» [Gers et al., 2002], [Graves, 2013] 等 对 LSTM 进行 了 改良 和 推广 。 

图 4.7 比较 了 传统 的 RNN 和 LSTM 模型 结构 。 在 图 4.7 Ca) 所 示 的 RNN 中 , 当前 
时 刻 的 输入 与 上 一 时 刻 的 隐 层 状态 进行 线性 变化 并 相 加 ,再 经 过 非 线性 激活 后 得 到 当前 
时 刻 的 隐 层 状态 。 在 RNN 的 基础 上 , 图 4.7 Cb) 所 示 的 LSTM 增加 了 单元 状态 或 称 细 
胞 状态 (cell state) 和 三 个 门 控 机 制 : 输入 门 去、 遗忘 门 fe 和 输出 门 oe。 其 核心 是 单元 
状态 ， 它 作为 整个 模型 的 记忆 空间 ， 可 以 被 理解 为 一 种 传送 带 ， 随 着 时 间 变 化 传送 模型 
的 记忆 信息 。 传 送 带 的 记忆 控制 通过 三 个 控制 门 实现 。 

三 个 控制 门将 当前 时 刻 的 输入 、 上 一 时 刻 的 隐 层 状态 和 单元 状态 的 线性 变化 相 加 ， 
再 用 Sigmoid 函数 激活 , 得 到 一 个 [0, 1] 之 间 的 门限 作为 输出 : 


it = o (Wix +r Uiht_1 + bi) (4.53) 
fr =0(Wpx: + Ushi_i + bp) (4.54) 
or = 0 (Wa: + Uohi_1 + bo) (4.55) 


其 中 , ac 表示 Sigmoid 函数 ， Wi, bi, Wy, by, Wo, bo 分 别 为 输入 门 、 遗 态 门 和 输出 门 的 参数 。 
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(a) RNN (b) LSTM 
图 4.7 LSTM 与 传统 RNN 模型 的 比较 


假设 c_i 为 上 一 时 刻 的 单元 状态 , če 是 当前 时 刻 的 候选 状态 , 那么 ， 
č = tanh (Wea, + Uchi1 + be) (4.56) 


上 述 门限 与 状态 或 输入 进行 点 乘 ， 决 定 传送 带 上 多 少 信息 可 以 被 传送 过 去 : 当 控制 
门 的 输出 值 为 0 时 不 传送 ; 当 输 出 值 为 1 时 全 部 传送 。 例 如 ， 输 入 门 与 候选 状态 点 乘 ， 
可 以 控制 将 多 少 当 前 时 刻 的 状态 信息 输入 到 传送 带 ， 而 遗忘 门 与 上 一 时 刻 的 单元 状态 点 
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F, 则 控制 需要 遗忘 多 少 过 去 时 刻 的 状态 信息 。 两 者 加 和 得 到 当前 时 刻 的 单元 状态 : 

Ct = it O Č + ft Oc (4.57) 
其 中 , © 表示 和 矩阵 /向 量 的 点 乘 (element-wise multiplication) . 

最 后 , 单元 状态 经 tanh 非 线 性 激活 后 与 输出 门 点 乘 , 得 到 当前 时 刻 的 隐 层 状态 
hy = or © tanh (c+) (4.58) 
在 标准 的 RNN 模型 中 , 每 个 词 的 表示 只 受 位 置 之 前 的 词 的 影响 , 位 置 之 后 的 词 对 
其 不 产生 影响 。 为 了 更 好 地 利用 前 向 和 后 向 的 上 下 文 信息 , [Schuster and Paliwal, 1997] 
提出 了 双向 RNN (bi-directional RNN) 模型 。[Graves et al., 2013] 在 语音 识别 任务 中 


使 用 了 双向 LSTM (bi-LSTM), 分 别 从 前 向 后 和 从 后 向 前 两 个 方向 对 序列 单元 进行 纺 
码 表示 : 


Za ht = LSTM (Cii Rinw) (4.59) 

Ct, hi = LSTM (Ges, hey,we) (4.60) 

并 将 前 向 LSTM 得 到 的 隐 层 状态 h, 与 后 向 LSTM 得 到 的 隐 层 状态 所 拼接 起 来 ,作为 
最 终 的 隐 层 状态 : 

蕊 三 [hu h] (4.61) 


模型 结构 如 图 4.8 所 示 。 这 种 双向 结构 同样 适用 其 他 RNN 模型 。 
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图 4.8 Bi-LSTM 结构 示意 图 


当 使 用 RNN 对 序列 信息 建 模 时 , 可 以 借鉴 人 脑 的 注意 力 机 制 , 针对 不 同 的 任务 , 从 

大 量 输入 信号 中 自 适 应 地 选择 一 些 关 键 信息 进行 处 理 ， 从 而 提高 模型 的 性 能 和 效率 。 
基于 LSTM 的 文本 序列 编码 通常 取 序列 中 最 后 一 个 词 的 隐 层 状态 : 

r=hr (4.62) 


或 者 取 所 有 词 的 隐 层 状态 的 均值 : 
T 

doh 
_ t=1 


T 


(4.63) 
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作为 文档 的 表示 。 

但 是 在 许多 自然 语言 处 理 任务 中 , 语义 组 合 应 考虑 到 不 同 单元 的 重要 性 ， 有 区 分 地 
进行 信息 的 组 合 和 集成 。 例 如 , 在 图 4.9 所 示 的 句子 情感 分 类 任务 中 , 文本 序列 中 的 情感 
词 显然 应 该 起 到 更 重要 的 作用 ， 需 与 其 他 词语 区 分 开 来 。 


图 4.9 RNN 中 的 注意 力 机 制 示意 图 


这 种 区 分 性 可 以 通过 为 序列 中 的 每 个 单元 学 习 一 个 权重 : 
at = Softmax (s+) 


exp(st) 
=o 4.64 
Yexp(se) ‘a 


其 中 ，st 为 注意 力 打分 函数 。 该 函数 可 以 定义 成 上 下 文 向 量 与 查询 向 量 的 内 积 形式 : 
st = Urq (4.65) 


其 中 , wt = tanh (Wh, +b) 表示 当前 单元 的 上 下 文 向 量 , q 是 查询 向 量 。 
最 后 通过 加 权 平 均 的 方式 进行 语义 组 合 


7 一 》 oh (4.66) 
t 


针对 LSTM 门 控 网 络 结构 复杂 和 存在 元 余 的 缺点 , 论文 [Cho et al., 2014] 在 LSTM 
的 基础 上 提出 了 一 种 名 为 门 控 循环 单元 (gated recurrent unit, GRU) 的 LSTM 2 
tk. GRU 将 遗忘 门 和 输入 门 合 并 为 更 新 门 , 同时 将 单元 状态 和 隐藏 层 进行 了 合并 ,从 而 
简化 了 LSTM 模型 的 结构 。 如 图 4.10 所 示 。 

GRU 主要 包含 两 个 门 控 模块 : BT) Ceset gate) 和 更 新 门 (update gate). HH 
门 主要 决定 有 多 少 过 去 的 信息 需要 遗忘, 更 新 门 则 主要 用 于 决定 将 多 少 过 去 的 信息 传递 
到 未 来 : 


Ti = 0 (Wrzit Urhei + br) (4.67) 
zt = o(W,a; + Uzhi_1 + bz) (4.68) 
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图 4.10 GRU 网络 结构 图 


基于 重 置 门 计算 当前 时 刻 的 候选 状态 : 
fy = tanh(Wyar + Un (re © he_1) + bn) (4.69) 
并 基于 更 新 门 对 隐 层 状态 进行 更 新 : 
hy = 2% O hea + (1— 2z) Oy (4.70) 
最 后 基于 隐 层 状态 得 到 模型 输出 : 
os = Softmax (V st) (4.71) 


HF, Wp, Wh, Wz, Ur, Un, Us,V 是 参数 矩阵 。 
GRU 在 结构 上 比 LSTM 简单 ,参数 更 少 , 但 在 实践 中 与 LSTM 相 比 性 能 没有 明显 
的 劣势 甚至 在 一 些 任务 上 效果 更 好 ,因此 也 成 为 一 种 较为 流行 的 RNN 模型 。 


2. 基于 RNN 的 句子 级 文本 分 类 模型 

本 节 以 句子 级 情感 分 类 为 例 , 介绍 如 何 使 用 RNN 完成 文本 分 类 任务 。 假 设 输入 
为 “我 非常 喜欢 这 部 电影 ”， 其 类 别 标签 为 正 向 情感 。 

如 图 4.11 所 示 , 首先 利用 预先 训练 好 的 词 向 量 获 得 句子 的 初始 表示 [21, za, … , 7], 
按时 序 将 各 个 词 的 词 向 量 zt 输入 到 Bi-LSTM tF: 


Za Re =LSTM (Gin Ria, wi) (4.72) 
Tis hi = LSTM (Serr, hess, wr) (4.73) 


相应 得 到 其 隐 层 状态 向 量 : 
h= [Re h] (4.74) 
将 句子 全 部 词语 处 理 完毕 , HRERS [hi ho, , hr]。 
基于 注意 力 机 制 计算 每 个 词 的 权重 a: 
ar = Softmax (ui q) (4.75) 
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RA 我 非常 喜欢 … 电影 
图 4.11 句子 级 文本 分 类 示例 


其 中 , wi = tanh (Wh, +b), q 为 查询 向 量 。 基 于 权重 对 各 个 词 的 隐 层 状态 进行 线性 加 
BL, 得 到 句子 的 最 终 表 示 向 量 : 
r= oh (4.76) 
t 


将 最 后 获得 的 句子 表示 向 量 后 送 入 Softmax 层 对 文本 进行 分 类 , 得 到 各 类 别 的 预测 
概率 : 
p = Softmax(W-r + be) (4.77) 
HeH, W. 和 be 为 权重 矩阵 和 偏 置 项 。 
模型 以 句子 真实 标注 y 和 分 类 预测 p MIR SON E 作为 优化 目标 : 


Cc 
E=— yj logp; (4.78) 
j=l 


并 利用 BPTT 算法 进行 模型 的 参数 学 习 。 
3. 层次 化 的 文档 级 文本 分 类 模型 


文档 级 文本 分 类 是 指 在 整个 文档 粒度 上 的 文本 分 类 , 每 个 文档 包含 一 个 类 别 标签 。 
基于 RNN 进行 文档 级 文本 分 类 有 一 种 简单 做 法 , 是 将 文档 视 为 一 个 长 句子 , 利用 RNN 
对 这 个 长 句子 进行 编码 并 分 类 , 但 是 这 种 做 法 没有 考虑 文档 中 的 层次 结构 。 
1 于 文档 通常 包含 多 个 句子 , 每 个 句子 又 包含 多 个 词 ， 因此 可 以 按照 “ 词 - 句 子 - 文 
档 ” 的 层次 结构 来 对 文档 表示 和 建 模 。[Tang et al., 2015] 首先 使 用 CNN (或 LSTM) 对 
句子 中 的 词 序列 进 行 向 量 表示 和 编码 , 然后 通过 Gated RNN 对 文档 中 的 句子 序列 进行 
编码 , 在 文档 级 情感 分 类 任务 上 获得 了 较 好 的 性 能 。[Yang et al., 2016] 进一步 提出 了 一 
种 层次 注意 力 RNN 模型 , 按照 “ 词 -句子 -文档 ”的 层次 结构 进行 文档 级 文本 分 类 , 结构 


4.5 深度 神经 网 络 方法 


如 图 4.12 所 示 。 该 模型 主要 包含 五 个 部 分 : 词 序列 编码 器 、 词 级 注意 力 层 、 句子 序列 编 
fat. 句子 级 注意 力 层 和 Softmax 分 类 层 。 模 型 使 用 GRU 作为 基本 神经 网 络 单元 。 假 
设 文档 包含 工 个 句子 , 每 个 句子 包含 Ti 个 词 ，si 表示 第 i 个 句子 , zis 表示 第 i 个 句子 
的 第 t 个 词 的 词 向 量 。 


句子 级 注意 力 


句子 序列 编码 


词 级 注意 力 


词 序 列 编码 


图 4.12 层次 化 的 文档 级 文本 分 类 模型 


我 们 自 下 往 上 依次 介绍 这 五 个 部 分 : 

。 词 序列 编码 层 : 对 于 每 个 句子 , 词 向 量 初始 化 后 送 入 到 BLGRU 中 ,得 到 每 个 
词 的 前 向 隐 层 状态 向 量 ha 和 后 向 隐 层 状态 向 量 Ta gs 拼接 后 得 到 每 个 词 的 表示 向 量 
hit = [Ri hu o 

。 词 级 注意 力 层 ; 针对 每 个 词 在 句子 表示 中 不 同 的 重要 性 , 计算 每 个 词 的 权重 

T 
au = EP (uitu) yee uy = tanh (Wuhu + bu), the 是 词 级 别 的 上 下 文 向 量 , È 
>》 exp (uzuv) 

可 以 看 作 是 查询 语句 “哪个 词 更 重要 ”的 高 层 表示 , 在 模型 中 被 随机 地 初始 化 并 与 模型 
其 他 参数 一 体 化 学 习 。 最 后 将 句子 中 各 词 的 隐 层 表示 线性 加 权 , 得 到 该 句子 的 表示 向 量 


8i = >》 aithito 

。 句子 序列 编码 层 : 经 过 词 注意 力 层 之 后 ,每 个 句子 得 到 了 其 表示 向 量 。 整 个 文档 
包含 的 句子 组 成 了 句子 序列 。 与 词 序列 编码 层 类 似 , 把 句子 作为 单元 送 入 到 Bi-GRU, 得 
到 该 句子 的 前 向 h:i 和 后 向 隐 层 表示 向 量 及 ;， 拼 接 得 到 句子 最 终 的 隐 层 表示 向 量 
R [ri h]. 
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。 句子 级 注意 力 层 : 为 了 区 分 不 同 句子 对 于 文档 表示 的 重要 性 , 青 次 引入 注意 力 机 


a 
制 ， 计 算 每 个 句子 的 权重 mi SEEE Ii u = amh Wah by) 4 
exp (u; Us 


子 的 上 下 文 表示 , 在 模型 训练 前 随机 地 初始 化 并 与 其 他 参数 一 体 化 学 习 。 对 句子 的 表示 
进行 线性 加 权 后 得 到 文档 的 表示 向 量 v = 》 aihio 


© Softmax 分 类 层 : 将 文档 的 表示 向 量 v 送 到 Softmax 层 进行 文档 分 类 ,计算 
p = Softmax(Wev 十 be), 其 中 ,Wi 和 be 分 别 是 权重 矩阵 和 偏 置 项 。 模型 以 文档 真实 标 
È y 和 分 类 预测 p 的 交叉 业 作 为 优化 目标 , 并 基于 BPTT 算法 进行 模型 参数 学 习 。 


4.6 ”文本 分 类 性 能 评估 


假设 一 个 文本 分 类 任务 共有 M 个 类 别 ， 类 别名 称 分 别 为 C1,… , Cm。 在 完成 分 类 任 
务 以 后 , 对 于 每 一 类 都 可 以 统计 出 真正 例 、 真 负 例 、 假 正 例 和 假 负 例 四 种 情形 的 样本 数目 。 

o 真正 例 (true positive, TP): 模型 正确 预测 为 正 例 ( 即 模型 预测 属于 该 类 , 真实 标 
签 属于 该 类 ) 。 

o 真 负 例 (true negative, TN): 模型 正确 预测 为 负 例 〈 即 模型 预测 不 属 该 类 ,真实 
标签 不 属 该 类 ) 。 

o IEH] (false positive, FP): 模型 错误 预测 为 正 例 ( 即 模型 预测 属于 该 类 , 真实 标 
签 不 属 该 类 ) 。 

o 假 负 例 (false negative, FN): 模型 错误 预测 为 负 例 ( 即 模型 预测 不 属 该 类 , 真实 
标签 属于 该 类 )。 

对 于 所 有 的 类 别 统计 出 TP, TN, FP 和 FN 之 后 , 可 以 得 到 表 4.9 所 示 的 微观 统 
计 值 。 

表 4.9 分 类 性 能 的 微观 统计 值 


类 别 TP FP FN TN 
C1 TPi FP1 FNi TNi 
C2 TP2 FP2 FN2 TN> 
Cm TPm FPm FNm TNm 


文本 分 类 任务 的 性 能 评价 指标 通常 包括 如 下 几 种 。 
1. AAR, HARM F 值 


假设 je {1,2,… , M} 是 类 别 序号 ， 可 以 为 每 一 类 定义 以 下 指标 : 
(1) 召回 率 (recall) 


TP; 


Rca i — 4.79 
i TP; + FN; tl 
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(2) 精确 率 (precision) 
Bos 
i> TP, + FP, 
我 们 希望 一 个 好 的 分 类 系统 同时 具有 较 高 的 召回 率 和 精确 率 , 但 两 者 常常 是 矛盾 
的 。 单一 地 追求 一 种 指标 的 提高 ,势必 造成 男 一 个 指标 的 降低 。 因 此 , 通常 定义 F 值 为 
准确 率 与 召回 率 的 调和 平均 数 ,以 综合 评价 两 个 指标 的 共同 作用 。 
(3) F Ë 


(4.80) 


2PR 
k= sop (4.81) 
在 某 些 应 用 中 , 为 了 区 分 召回 率 和 精确 率 的 重要 性 , 定义 更 为 一 般 的 Fs 值 : 
_ (@+1)PR 
f= PR (1.82) 


4 B=1 时 , Fs 退化 为 标准 的 Fy 值 。 


2. 正确 率 、 宏 平均 和 微 平均 


召回 率 、 精 确 率 和 五 值 只 能 评估 某 一 类 数据 的 分 类 性 能 。 为 了 考察 整个 分 类 任务 
的 性 能 , 定义 分 类 正确 率 为 : 


New #Correct 


其 中 ，N 为 样本 总 数 , #Correct 为 其 中 被 模型 正确 预测 的 样本 数 。 

除 此 之 外 ,还 可 以 使 用 各 类 指标 的 宏 平 均 (macro-average) 和 微 平均 (micro- 
average) 评估 整个 分 类 任务 的 性 能 。 从 名 称 上 可 以 看 出 ， 宏 平均 值 是 先 计 算 各 类 的 
宏观 指标 (召回 率 、 精 确 率 ), 再 按 类 求 平均 ,而 微 平均 则 是 将 微观 指标 (TP、TN、FP 
和 FN) 按 类 求 平均 后 , 再 计算 召回 率 、 精 确 率 和 五 值 。 

宏 平 均 的 召回 率 、 精确 率 和 Fa 值 定义 分 别 为 : 


(4.83) 


c 
1 TP; 
Macro-P = = 2 TE TA (4.84) 
c 
1 TP; 
Macro-R = = 2 二 (4.85) 
2 x Macro_P x Macro_R 
Meets Macro_P + Macro_R (136) 
微 平 均 的 召回 率 、 HRA Fi 值 定义 分 别 为 : 
C 
yr, 
Mico P= (4.87) 
X (TP; + FP;) 


ja 
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Cc 
5 TP; 
j=1 


Micro. R= (4.88) 
> (TP; 十 FNi) 
j=l 
2 x Micro_P x Micro_R 

ia 二 二 x Micro_P x Micro. (4.89) 


Micro_P + Micro_R 


在 二 分 类 日 类 别 互 斥 的 情况 下 , Micro_R. Micro_P. Micro_F, 都 与 正确 率 Acc 相等 。 
对 于 表 4.10 给 出 的 两 分 类 问题 的 分 类 结果 , 可 以 计算 得 到 上 述 所 有 指标 如 表 4.11 
所 示 。 


表 4.10 二 分 类 的 分 类 结果 示例 


预测 /真实 正 类 (十 ) 负 类 (一 ) 全 部 
EX (+ 250 20 270 
负 类 (一 ) 50 180 230 

全 部 300 200 500 


表 4.11 针对 表 4.10 分 类 结果 的 评估 指标 
TP FP FN TN Recall Precision Fy Acc 
正 类 (+) 250 20 50 180 0.8333 0.9259 0.8772 
负 类 (一 ) 180 50 20 250 0.9000 0.7826 0.8372 
宏 平 均 0.8667 0.8543 0.8605 
微 平均 0.8600 0.8600 0.8600 


0.8600 


3. P-R 曲线 、ROC 曲线 


在 分 类 问题 中 ,模型 进行 样本 类 别 预测 本 质 上 基于 模型 输出 值 与 阔 值 的 比较 。 例 
W, Logistic 回归 模型 的 阔 值 为 0.5， 模 型 的 输出 值 大 于 0.5 时 预测 为 正 类 , 小 于 0.5 时 
预测 为 负 类 。 为 了 更 加 全 面 地 评价 分 类 器 在 不 同 召 回 率 情况 下 的 分 类 效果 ,可 以 通过 调 
整 分 类 器 的 阔 值 ， 将 按 输 出 排序 的 样本 序列 分 割 为 两 部 分 ,大 于 阔 值 的 预测 为 正 类 ,小 
于 阔 值 的 预测 为 负 类 ， 从 而 得 到 不 同 的 召回 率 和 精确 率 。 如 设置 阔 值 为 0 时 , 召回 率 为 
1; 设置 阔 值 为 1 时 , 则 召回 率 为 0。 以 召回 率 作 为 横 轴 、 精 确 率 作为 纵 轴 ， 可 以 绘制 出 
精确 率 召 回 率 (precision-recall, PR) 曲线 。 理论 上 讲 , PR 曲线 越 靠 近 右 上 方 越 好 ， 如 果 
一 个 模型 的 PR 曲线 在 右上 方 “ 包 住 ” 另 一 模型 的 PR 曲线 , 则 说 明 其 分 类 性 能 明显 优 
于 后 者 。 对 于 PR 曲线 相交 的 情形 , 可 以 通过 计算 PR 曲线 下 方 的 面积 度量 分 类 的 性 能 ， 
面积 越 大 , 分 类 性 能 越 好 。 更 简单 地 ，11 点 平均 正确 率 法 通过 调整 分 类 器 , 使 得 其 召回 
率 分 别 为 0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 然后 利用 这 11 点 的 平均 精 
确 率 衡量 分 类 器 的 性 能 。 

类 似 地 ， 以 假 正 率 (false positive rate) 作为 横 坐 标 , 以 真正 率 (true positive rate) 
〈 即 召回 率 ) 作为 纵 坐 标 , 绘制 出 的 曲线 称 为 ROC (receiver operating characteristic) H 
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tk. ROC 曲线 下 的 面积 称 为 AUC (area under ROC curve) , AUC 曲线 越 靠近 左上 方 
越 好 。AUC 值 越 大 ,说 明 分 类 器 性 能 越 好 。 


4.7 进一步 阅读 


一 方面 ,基于 统计 机 器 学 习 的 分 类 模型 大 体 可 以 分 成 两 类 : 生成 式 模型 (generative 
model) 和 判别 式 模型 (discriminative model) 。 若 在 分 类 模型 中 把 样本 特征 向 量 z 作为 
观测 值 , 把 样本 类 别 y 作为 状态 值 ， 判 别 式 模型 认为 y 由 xz 决定 , 直接 对 给 定 观测 值 z 
条 件 下 状态 y 的 后 验 概率 p(ylz) 或 者 两 者 的 映射 关系 y = f(x) 进行 建 模 , 它 从 z 中 提 
取 特 征 , 学 习 模型 参数 , 使 得 后 验 概率 符合 一 定形 式 的 最 优 。 生成 式 模型 则 就 每 个 状态 y 
按照 分 布 plæly) 生成 观测 值 xs， 对 观测 值 和 状态 值 的 联合 分 布 p (zx,y) = p(y)p(aly) 建 
模 , 并 且 通 过 最 大 似 然 估 计 来 学 习 模型 参数 。 在 文本 分 类 领域 , 常见 的 判别 式 分 类 模型 
包括 Logistic 回归 、 最 大 烂 模型 、 支 持 向 量 机 和 人 工 神经 网 络 等 , 典型 的 生成 式 分 类 模 
型 则 包括 朴素 贝 叶 斯 模型 等 。 

另 一 方面 ,本 章 介绍 的 模型 都 是 针对 文本 整体 信息 的 分 类 ,并 未 涉及 针对 文本 序列 
结构 信息 的 预测 。 考 虑 一 个 由 多 个 节点 组 成 的 文本 序列 z, 文本 分 类 任务 中 z 对 应 一 个 
状态 标签 y; 如 果 z 中 的 每 个 节点 zt 都 对 应 一 个 状态 标签 ye 则 文本 分 类 任务 就 转化 为 
了 文本 序列 标注 任务 。 序 列 标注 任务 的 本 质 是 对 序列 中 的 每 个 节点 进行 分 类 , 并 且 在 分 
类 预测 中 考虑 序列 中 节点 间 的 关系 ,以 寻求 在 序列 信号 上 的 全 局 最 优 。 序列 标注 中 的 常 
见 模型 包括 隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 、 条 件 随机 场 (conditional 
random field, CRF) 等 。HMM 可 以 看 作 是 朴素 贝 叶 斯 模型 从 分 类 问题 向 序列 标注 问 
题 的 扩展 , HMM 除了 以 发 射 概率 来 建立 ze 和 vy 的 关系 ,还 利用 状态 转移 概率 来 建立 
Y-i All ys 的 关系 ,从 而 实现 序列 的 关系 学 习 。 类 似 地 ，CRF 模型 是 最 大 粒 横 型 从 分 类 
问题 向 序列 标注 问题 的 扩展 ，CRF 借鉴 了 最 大 烂 模型 的 对 数 线性 模型 假设 , 定义 了 相似 
的 观测 状态 特征 函数 , 此 外 CRE 还 定义 了 一 个 状态 转移 特征 函数 用 于 学 习 序列 中 的 结 
构 关系 。 更 多 关于 HMM 和 CRE 等 序列 标注 模型 的 介绍 可 参考 [ 宗 成 庆 ，2013] 。 

循环 神经 网 络 天 然 具备 同时 处 理 文 本 分 类 和 序列 标注 问题 的 能 力 , 在 图 4.6 所 示 的 
RNN 结构 中 , 如 果 对 每 个 节点 的 输出 都 进行 分 类 则 形成 了 序列 标注 问题 ; 如 果 将 每 个 节 
点 的 输出 通过 语义 组 合 形成 文档 级 别 的 输出 再 进行 分 类 ,， 则 形成 文档 分 类 任务 。 这 种 高 
度 的 灵活 性 也 是 循环 神经 网 络 针对 文本 建 模 的 一 大 优势 。 
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5.1 概 述 


俗话 说 “ 物 以 类 聚 , 人 以 群 分 ”， 人 类 往往 通过 对 事物 进行 聚 类 和 分 类 来 认识 客观 世界 
并 形成 知识 体系 。 数 据 挖掘 中 的 聚 类 分 析 是 根据 数据 的 特征 探索 数据 中 的 内 在 规律 和 分 布 
特征 ， 将 数据 划分 成 不 同 子 集 的 过 程 。 每 个 子 集 即 是 一 个 “ 徐 ”(clustering)， 聚 类 使 得 同 
一 簇 内 的 对 象 彼此 相似 , 不 同 簇 间 的 对 象 彼此 相 异 。 聚 类 作为 一 种 无 监督 的 机 器 学 习 方 法 ， 
与 分 类 方法 不 同 ， 它 无 需 已 标注 类 别 信息 的 数据 作为 学 习 的 指导 ， 而 主要 以 数据 间 的 相似 
性 作为 聚 类 划分 的 依据 , 具有 较 高 的 灵活 性 和 自动 性 。 分 类 通常 已 知 类 别 数目 ,分 类 过 程 
是 将 不 同 的 数据 归属 到 某 个 已 知 的 类 别 ， 而 聚 类 的 类 别 是 事先 未 知 的 ， 系 统 将 根据 聚 类 
准则 确定 数据 的 归属 和 类 别 数目 。 聚 类 是 模式 识别 研究 的 一 个 基础 性 问题 , 对 于 这 项 技 
术 的 研究 由 来 已 久 , 它 被 广泛 地 应 用 于 图 像 分 析 、 文本 挖 气 和 生物 信息 分 析 等 领域 。 

文本 聚 类 首先 需要 将 文本 表示 为 机 器 可 计算 的 形式 。 因此 , 文本 表示 是 文本 聚 类 的 
前 提 。 本 书 第 3 章 已 经 对 文本 表示 方法 进行 了 详细 介绍 ， 本 章 不 再 次 述 。 文 本 聚 类 的 核 
心 是 聚 类 算法 。 常见 的 聚 类 算法 包括 基于 划分 的 方法 、 基 于 层次 的 方法 和 基于 密度 的 方 
法 等 , 不 同 的 聚 类 算法 从 不 同 的 角度 出 发 , 产生 不 同 的 结果 。 但 是 , 这些 聚 类 算法 均 以 相 
似 性 作为 基础 ， 因 此 , 文本 聚 类 的 关键 问题 是 文本 相似 性 度量 。 


5.2 ”文本 相似 性 度量 


在 文本 聚 类 中 , 有 三 种 常见 的 文本 相似 性 度量 指标 : 

o 两 个 文本 对 象 之 问 的 相似 度 ; 

。 两 个 文本 集合 之 问 的 相似 度 ; 

。 文本 对 象 与 文本 集合 的 相似 性 。 

在 文本 聚 类 中 , 每 个 聚 类 算法 都 会 用 到 上 述 一 种 或 多 种 相似 性 度量 指标 。 以 下 从 样 
本 间 的 相似 性 和 簇 间 的 相似 性 两 个 方面 , 分别 介绍 文本 相似 性 度量 方法 。 


5.2.1 ”样本 间 的 相似 性 
在 向 量 空间 模型 中 , 每 个 文本 被 表示 为 向 量 空 间 中 的 一 个 向 量 。 那么 , 如 何 度量 两 
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个 文本 之 间 的 相似 度 呢 ? 以 下 从 样本 间 的 相似 性 、 簇 间 的 相似 性 和 样本 与 簇 之 间 的 相似 
性 三 个 方面 , 分 别 介绍 文本 相似 性 度量 方法 。 


1. 基于 距离 的 度量 


最 简单 的 文本 相似 度 测量 方法 是 基于 距离 的 相似 度 测 量 。 该 方法 以 向 量 空间 中 
两 个 向 量 之 间 的 距离 作为 其 相似 度 的 度量 指标 ， 距 离 越 小 相似 度 越 大 。 常 用 的 距 
离 度量 包括 欧 氏 距 离 (Euclidean distance) 、 曼 哈 顿 距离 (Manhattan distance) 、 切 
比 雪夫 距离 (Chebyshev distance) 、 闵 可 夫 斯 基 距 离 (Minkowski distance) 、 马 氏 距 
离 (Mahalanobis distance) 和 杰 卡 德 距 离 (Jaccard distance) 等 。 


令 ab 分 别 为 两 个 待 比较 文本 的 向 量 表示 ， 


欧 氏 距离 定义 为 : 
M 1/2 
d(a,b) = (> (a -mw (5.1) 
k=1 
。 盟 哈 顿 距离 定义 为 : 
M 
d(a,b) = J lax — b (5.2) 
k=1 


o 切 比 雪夫 距离 定义 为 : 


d(a,b) = max |ax — bx| (5.3) 


e 闵可夫 斯 基 距 离 定 义 为 : 
1/p 
(a,b) = ps (ax — br) r) (5.4) 


2. 基于 夹 角 余 弦 的 度量 


在 文本 挖掘 中 , 余弦 相似 度 (cosine simility ) 通过 测量 两 个 向 量 之 间 夹 角 的 余弦 值 
度量 它们 之 间 的 相似 性 。 其 计算 公式 如 下 : 
a™b 


b) = 8 
cos(a, b) = Tajo 


(5.5) 

余弦 相似 度 通常 用 于 正 空 间 , 因此 其 取 值 范围 通常 为 [1,1 EAR EMD 
角 的 余弦 成 正比 。0 度 角 的 余弦 值 是 1, 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1, 并 且 其 最 
小 值 为 -1。 从 而 两 个 向 量 之 间 角 度 的 余弦 值 可 以 确定 两 个 向 量 是 否 大 致 指向 相同 的 方 
向 。 两 个 向 量 有 相同 的 指向 时 , 余弦 相似 度 的 值 为 1; 两 个 向 量 夹 角 为 90? 时 ,余弦 相似 
度 的 值 为 0; 两 个 向 量 指向 完全 相反 的 方向 时 , 余弦 相似 度 的 值 为 一 1。 
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余弦 相似 度 的 计算 自动 涵盖 了 文本 的 2- 范 数 归 一 化 。 当 向 量 已 经 进行 了 2- 范 数 归 一 
化 之 后 , 余弦 相似 度 与 内 积 相似 度 ab = aTb 是 等 价 的 。 


Y 


dist(4,B) 
ri 


图 5.1 向 量 空间 模型 中 的 样本 距离 度量 


距离 度量 衡量 的 是 空间 各 点 之 间 的 绝对 距离 ,与 各 个 点 所 在 的 位 置 坐标 ( 即 个 体 特 
征 维 度 的 数值 ) 直接 相关 , 而 余弦 相似 度 衡量 的 是 空间 向 量 的 夹 角 , 更 多 地 体现 了 方向 
上 的 差异 , 而 不 是 位 置 (距离 或 长 度 )。 如 果 保 持 A 点 的 位 置 不 变 , B 点 朝 原 方向 远离 从 
标 轴 原 点 , 那么 这 个 时 候 余 缠 的 相似 度 保持 不 变 , 因为 夹 角 不 变 , 而 A, B 两 点 之 间 的 距 
离 显 然 在 发 生 改变 , 这 就 是 欧 氏 距离 和 余弦 相似 度 的 不 同 之 处 。 欧 氏 距 离 和 余弦 相似 度 
因为 计算 方式 的 不 同 , 适用 的 数据 分 析 任 务 也 不 同 。 欧 氏 距 离 能 够 体现 数据 各 个 维度 数 
值 大 小 的 差异 ， 而 余弦 相似 度 更 多 地 是 从 方向 上 区 分 样本 间 的 差异 ， 而 对 绝对 的 数值 不 
敏感 。 

余弦 相似 度 是 文本 相似 度 度 量 使 用 最 为 广泛 的 相似 度 计算 方法 。 


3. 基于 分 布 的 度量 


前 面 介绍 的 两 种 文本 相似 性 度量 方法 主要 针对 定义 在 向 量 空间 模型 中 的 样本 , 而 有 时 
候 , 文本 通过 概率 分 布 进行 表示 ， 如 词 项 分 布 、 基于 PLSA Al LDA 模型 的 主题 分 布 等 。 
在 这 种 情况 下 , 可 以 用 统计 距离 (statistical distance) 度量 两 个 文本 之 间 的 相似 度 。 

统计 距离 计算 的 是 两 个 概率 分 布 之 间 的 差异 性 , 常见 的 准则 包括 Kullback-Leibler 
(K-L) 距离 (也 称 K-L 散 度 (K-L divergence) )。 在 多 项 分 布 假设 下 ,从 分 布 Q 到 分 布 
P 的 K-L 距离 定义 为 : 

Drr(PIQ) = LP Ov (5.6) 

K-L 距离 不 具有 对 称 性 , 即 Der (PQ) 关 DkL(Q|IP), 因此 也 常常 使 用 对 称 的 K-L 

距离 : 


Dsxu(P,Q) = Dkr(PIIQ) + DKL (QIP) (5.7) 

需要 注意 的 是 ， 当 文本 长 度 较 短 的 时 候 , ACHE Mii la) AE LL) A Hl i ASK ML 

因此 ， 基 于 分 布 的 度量 更 多 地 用 于 刻画 文本 集合 而 非 单个 文本 ，K-L 距离 往往 用 于 度量 
两 个 文本 集合 之 间 的 相似 度 。 
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4. 其 他 度量 方法 

除了 上 述 方法 以 外 , 还 有 其 他 一 些 相似 性 度量 方法 。 例如 , 杰 卡 德 相似 系数 Jaccard 
similarity coefficient) 也 是 常用 的 文本 相似 性 度量 指标 。 该 指标 以 两 个 文本 特征 项 交集 
与 并 集 的 比例 作为 文本 之 间 的 相似 度 : 


(i) (3) 
i j ae Nz 
J (2, 2%) = | | 


lzGUzO| 


上 述 相似 性 度量 方法 不 仅 用 于 文本 聚 类 任务 ,还 广泛 地 应 用 于 其 他 文本 挖掘 任务 。 


(5.8) 


5.2.2 RelA 


— AS ABE FS h EAA PERA oI) A AAAA PE RE EE: DE PF AS ZT EA 
似 性 为 基础 的 。 假 设 (Cm, Cn) 表示 簇 Cm 和 簇 Cn 之 间 的 距离 ，d(z(,zO)) 表示 样本 
we) Fil ac) 之 间 的 距离 。 常 见 的 簇 间 相似 性 度量 方法 有 如 下 几 种 。 

(1) 最 短 距离 法 (single linkage): 取 分 别 来 自 两 个 簇 的 两 个 样本 之 间 的 最 短 距 离 作 
为 两 个 簇 的 距离 : 


d(Cm, Cn) = gr 


o Venz) (5.9) 
(2) 最 长 距离 法 (complete linkage): 取 分 别 来 自 两 个 簇 的 两 个 样本 之 间 的 最 长 距 

离 作 为 两 个 筷 的 距离 : 
d(Cm, Cn) = ved <6 d(x;,x;) (5.10) 


(3) HEF BE (average linkage): 取 分 别 来 自 两 个 簇 的 两 两 样本 之 间距 离 的 平均 值 
作为 两 个 簇 间 的 距离 : 


1 
UCm, Cn) = ee] > J aai,2;) (5.11) 


PiECm TjECn 
(4) 重心 法 : 取 两 个 簇 的 重心 之 间 的 距离 作为 两 个 簇 间 的 距离 : 
d(Cm, Cn) = d(z(Cm), ®(Cn)) (5.12) 
其 中 , &(Cm) 和 元 (Cn) 分 别 表 示 簇 Cw 和 Cn 的 重心 。 


(5) 离 差 平方 和 法 (Ward's method): 两 个 簇 中 各 样本 到 两 个 簇 合并 后 的 簇 中 心 之 
间距 离 的 平方 和 , 相 比 于 合并 前 各 样本 到 各 自 簇 中 心 之 间距 离 平 方 和 的 增 量 : 


4(CmsCn)= X, dlar, 2(CmUCa))- 
EkECm UCn 
DE ad(zp5(Cm))- D2 d(23,8(Cn)) (5.13) 
PiECm ZjECn 


其 中 d(a,b) = |a bl?。 
除 此 之 外 , 还 可 以 使 用 K-L 距离 等 指标 度量 两 个 文本 集合 之 间 的 相似 性 , 计算 方法 
如 式 (5.6) 所 示 。 
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5.2.3 ”样本 与 复 之 间 的 相似 性 


样本 与 簇 之 间 的 相似 性 通常 转化 为 样本 间 的 相似 度 或 簇 间 的 相似 度 进行 计算 。 如 果 
用 均值 向 量 来 表示 一 个 篮 , 那么 样本 与 簇 之 间 的 相似 性 可 以 转化 为 样本 与 均值 向 量 的 样 
本 相似 性 。 如 果 将 一 个 样本 视 为 一 个 通 , 那么 就 可 以 采用 前 面 介绍 的 簇 间 的 相似 性 度量 
方法 进行 计算 。 


5.3 MARRS 


常用 的 聚 类 方法 包括 基于 划分 的 方法 、 基 于 层次 的 方法 、 基 于 密度 的 方法 、 基 于 网 
格 的 方法 、 基 于 图 论 的 方法 和 基于 模型 的 方法 等 ,其 中 每 一 类 方法 都 具有 一 些 代表 性 的 
算法 。 以 下 简要 介绍 几 种 常用 的 文本 聚 类 算法 。 


5.3.1 KK- 均值 聚 类 


大 -均值 (K-means) 聚 类 算法 由 MacQueen 于 1967 年 提出 , 是 一 种 使 用 广泛 的 基 
于 划分 的 聚 类 算法 。 该 算法 通过 样本 间 的 相似 度 计算 尽 可 能 地 将 原样 本 划分 成 不 同 的 
徐 ， 使 得 不 同 秘 之 间 的 样本 相 异 ,相同 徐 中 的 样本 特征 相似 。 

理论 上 , 对 于 给 定 的 数据 集 {z1, 22,… an}, 天- 均值 聚 类 的 目标 是 把 这 N 个 样本 
划分 到 天 (K < N) Sih, 使 得 秘 内 样本 之 间 的 距离 平方 和 最 小 。 这 种 方法 简称 为 徐 内 
平方 和 (within-cluster sum of squares, WCSS) 法 : 


K 
arg min> ， > lz- mll? (5.14) 


k=1 ESk 


为 了 达到 上 述 目 标 , KK- 均 值 聚 类 标准 算法 (Lloyd-Forgy 方法 ) 使 用 了 和 迭代 优化 方 
法 。 给 定 天 个 簇 的 初始 中 心 点 , 分 别 计算 各 个 样本 到 簇 中 心 点 的 距离 , 将 样本 划分 到 距 
离 簇 中 心 点 (均值 ) 最 近 的 簇 中 , 并 更 新 现 有 簇 的 中 心 点 。 经 多 次 迭代 , 重复 将 样本 划分 
到 距离 簇 中 心 点 最 近 的 簇 , 并 更 新 簇 的 中 心 点 ,直至 簇 内 平方 和 WCSS 最 小 。 

形式 化 地 , 给 定 初始 聚 类 中 心 点 MO, mO,- mO, 算法 按 以 下 两 个 步 又 迭代 
进行 : 

D 划分 : 将 每 个 样本 划分 到 簇 中 ,使 得 簇 内 平方 和 最 小 : 


wren) 5 d(x, mË) (5.15) 


1 cs 


其 中 ， d(«,m}?) = |e- mO|2, t 表示 迭代 次 数 。 直 观 地 , 把 样本 划分 到 离 它 最 近 的 
均值 点 所 在 的 聚 类 即 可 。 
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(2) 更 新 : 根据 上 述 划分 计算 新 的 能 内 样本 问 距 离 的 平均 值 , 作为 新 的 聚 类 中 心 点 : 


1 

1 

mD- 区 Dz (5.16) 
k 


aes 


取 算术 平均 值 作为 最 小 平方 估计 , 进一步 减 小 了 簇 内 平方 和 WCSS。 

上 述 两 个 步骤 交替 进行 ， 艇 内 平方 和 WCSS 逐渐 减 小 , 算法 最 终 收 敛 于 某 个 局 部 最 
小 值 。 但 是 , 这 种 迭代 优化 算法 无 法 保证 得 到 全 局 最 优 解 。 

在 不 同 的 聚 类 任务 中 ,可 以 基于 不 同 的 距离 函数 进行 划分 。 例 如 , 在 文本 聚 类 任务 


中 常常 使 用 余弦 距离 
DN zm 
es lal [no = 


TERRE, AERE DEE WK REE N EB BE RIE ARF 7 Al. WCSS 
逐 级 减 小 。 如 果 使 用 不 同 的 距离 函数 代替 欧 氏 距离 ,可 能 会 导致 算法 无 法 收敛 。 
综 上 所 述 , 天 -均值 聚 类 算法 描述 如 下 。 


HA: 数据 集 DD = {fzi,za,… ,ZN}， 聚 类 数 K; 
输出 : 聚 类 划分 {51, 5o,---, Sk}。 
算法 描述 : 
1. 随机 选择 D F K 个 样本 作为 初始 均值 向 量 {mi, mo,--- mK}; 
2. while 未 满足 算法 收敛 条 件 : 
3. fort=1,---,N 

Bee gai 

计算 样本 mi 到 my 的 距离 d (zi, mg) = zi — m||? 

将 样本 mi 划分 到 距离 最 近 的 均值 向 量 所 在 的 答 arg min{d (æi, mx)} 

和 


更 新 各 区 均值 向 量 : mye" = [| 2 
k 


aait Se E 


PiESK 


算法 5.1 KK- 均 值 聚 类 算法 


假设 有 表 5.1 所 示 的 文本 聚 类 数据 集 , 该 数据 集 包 括 10 个 文本 , 分 别 抽取 自 教育 、 
体育 、 科 技 和 文学 等 领域 。 
FA D = {zi, £2,- ,zlo} 表 示 该 数据 集 ， 其 中 zi 对 应 上 述 编号 为 i 的 文档 。 在 执行 
文本 聚 类 之 前 , 首先 需 对 上 述 文档 进行 特征 选择 和 文本 表示 , 具体 步骤 如 下 所 示 : 
(1) 特征 选择 : 经 统计 ， 上 述 语 料 共 含 118 个 词 。 由 于 文本 特征 维度 较 大 , 为 了 减 
少 低频 词 对 文本 聚 类 的 影响 ,本 例 采 用 词 频 法 进行 特征 选择 , 选取 词 频 大 于 等 于 2 的 词 
作 构 成 特征 向 量 , 共 23 维 : 
排球 北京 届 以 理工 夺冠 人 类 在 年 大 学 机 器 的 了 流水 是 人 工 专业 计算 机 
叶子 智能 运动 会 中 国 荷塘 
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(2) 文本 降 维 : 使 用 降 维 后 的 词 表 对 表 5.1 中 的 文本 聚 类 数据 集 进行 简化 , 同时 忽 
略 词 项 的 频率 ， 得 到 降 维 后 的 文本 聚 类 数据 集 如 表 5.2 所 示 。 


表 5.1 文本 聚 类 数据 集 


文档 序号 文 本 
zı 北京 理工 大 学 计算 机 专业 创建 于 1958 年 是 中 国 最 早 设立 计算 机 专业 的 高 校 
之 一 
ma 北京 理工 大 学 学 子 在 第 四 届 PH 计算 机 博 弃 锦标 赛 中 夺冠 
£3 北京 理工 大 学 体育 馆 是 2008 年 中 国 北京 奥林匹克 运动 会 的 排球 预赛 场地 
4 第 五 届 东亚 运动 会 PH 军团 奖牌 总 数 创 新 高 男女 排球 双双 夺冠 
£s 人 工 智 能 也 称 机 器 智能 是 指 由 人 工 制 造 出 的 系统 所 表现 出 来 的 智能 
£e 人 工 智 能 是 计算 机 科学 的 一 个 分 支 它 企图 生产 出 一 种 能 以 人 类 智能 相似 的 
方式 做 出 反应 的 智能 机 器 
ær AlphaGo AX 智能 对 决 围棋 世界 冠军 柯 洁 的 三 场 赛事 以 人 类 完 败 结果 告终 
£s 曲 曲折 折 的 荷塘 上 面 弥 望 的 是 田 田 的 叶子 叶子 出 水 很 高 像 PS 的 舞女 的 裙 
£9 月 光 如 流水 一般 静 静 地 泻 在 这 一 片 叶 子 和 花 上 薄 薄 4 AF FH AAR 
P10 叶子 底下 是 脉 脉 的 流水 遮 住 了 不 能 见 一 些 颜色 而 叶子 却 RL 风 致 了 
表 5.2 降 维 后 的 文本 聚 类 数据 集 
文档 序号 降 维 后 的 文本 
zı 北京 理工 大 学 计算 机 专业 年 是 中 国 的 
zz 北京 理工 大 学 在 届 中国 计算 机 Fe 
£3 北京 理工 大 学 是 年 中 国 北京 运动 会 的 排球 
£4 届 运动 会 PH 排球 夺冠 
£s AL 智能 机 器 是 的 
ze AX 智能 是 计算 机 的 以 人 类 机 器 
27 人 工 智能 的 以 人 类 


的 荷塘 是 叶子 
流水 在 叶子 的 荷塘 
叶子 是 的 流水 了 


使 用 KK- 均值 算法 对 上 述 文 本 进行 聚 类 , 设置 = 3, 并 使 用 欧 氏 距离 度量 文本 相似 
性 。 为 了 对 聚 类 过 程 可 视 化 , 我 们 利用 主 成 分 分 析 (principal component analysis, PCA) 
算法 对 特征 进行 降 维 ,最 终 取 方差 最 大 的 两 个 主 元 分 别 作为 X 轴 和 了 轴 进 行 绘图 ( 仅 
利用 PCA 降 维 进行 绘图 ,天 -均值 聚 类 仍 基于 23 维 的 文本 表示 )。K- 均 值 聚 类 过 程 


如 下 : 


a) 初始 化 簇 为 {C1 : {x2}, C2 : {as} ,Ca : {27}}; 


b) 第 1 FEWER: 依次 计算 语 料 中 各 样本 分 别 与 当前 3 个 簇 簇 中 心 点 的 距离 ， 如 对 
于 样本 a1, 到 3 个 簇 中 心 {x2, zs, z7} 的 距离 分 别 为 2.645，3.16，3.46， 因 此 将 样本 zi 
划分 到 距离 最 近 的 簇 C1。 当 所 有 的 样本 划分 结束 后 , 聚 类 结果 如 图 5.2 Ca) 所 示 , 分 别 
为 : {C1 : {a1, £2, £3, £4} , C2 : {Ls, £6, L8, T9, £10} ,C3 : {z7}}， 依次 更 新 各 簇 的 簇 中 


心 点 
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c) 第 2 HIER: 依次 计算 语 料 中 各 样本 分 别 与 当前 3 SRR UD RS, 
如 对 于 样本 ag, 到 3 个 簇 中 心 的 距离 分 别 为 3.13，1.95，1.73， 因 此 将 样本 ze 划 
分 到 距离 最 近 的 艇 Cs。 当 所 有 的 样本 划分 结束 后 ， 聚 类 结果 如 图 5.2 b) 所 示 ， 为 
{C1 : {21, £2, £3, £4} , C2 : {Ts5, L8, L9, £10} , C3 : {ze, 27}}, 依次 更 新 各 簇 的 簇 中 心 点 。 

dD 第 3 HIER: 依次 计算 语 料 中 各 样本 分 别 与 当前 3 个 簇 簇 中 心 点 的 距离 ， 
如 对 于 样本 zs， 到 3 个 簇 中 心 的 距离 分 别 为 2.80，1.71，1.66， 因 此 将 样本 zs 划 
分 到 距离 最 近 的 艇 Cs。 当 所 有 的 样本 划分 结束 后 ， 聚 类 结果 如 图 5.2 Co) 所 示 , 为 


{C1 : {21, £2, £3, £4} , C2 : {Ta, £9, £10} , C3 : {x5, £6, 27}}, 依次 更 新 各 簇 的 簇 中 心 点 。 
e) 第 4 PRR: 因 簇 划分 没有 发 生变 化 , 聚 类 结束 , 最 终 的 聚 类 结果 如 图 5.2 Cd) 所 
示 , 为 {C1 : {£1, £2, £3, £4} , C2 : {£8, £9, £10} ,Ca : {£5, £6, 27}}e 
150 n 150 T 
100 e2 100 2 
50|。4 本 50| 04 a 
g0 3 = 0 3 m 
-50 m6 -50 26 
el ml10 el ml0 
-100 -100 
-150 ad -150 a8 
-150 -100 -50 0 50 100 150 -150-100 -50 0 50 100 150 
Xt 
(a) BERE (b) BARE 
150 7 150 a 
100 2 100 2 
a5 ad 
sopet 50} 04 
Æ 0 .3 = = OF 03 B 
-50 上 46 -50 上 46 
el ald el al 
-100 -100 F 
-150 ; a8 -150| a8 
-150 -100 -50 0 50 100 150 -150 -100 -50 0 50 100 150 
XSi Xi 
(c) 第 3 轮 迭 代 后 (d) 第 4 轮 迭 代 后 
图 5.2 EH KIH (K = 3) 对 文本 聚 类 数据 集 进行 聚 类 


初始 簇 中 心 点 的 选择 对 天- 均值 聚 类 有 所 影响 。 例如， 如 果 选 择 样本 zl 25,08 分 别 
作为 3 个 初始 簇 的 中 心 样本 点 ,只 需 经 过 两 轮 迭 代 聚 类 就 可 以 结束 , 最 终 的 划分 结果 为 
{C1 : {a1, £2, za L4} , C2 : {Ts5, Te, £7}, C3 : {Ta, £9, T10}}。 


天 -均值 聚 类 算法 的 优点 是 : 理解 简单 ,易于 实现 , 应 用 广泛 , 但 该 算法 在 使 用 时 也 


存在 如 下 


问题 : 中 难以 确定 聚 类 数 天 的 取 值 ; @ 选 取 初 始 簇 的 中 心 点 需要 一 定 的 经 验 和 


技巧 ; @@ 距 离 函 数 的 选择 没有 确定 的 准则 。 尽管 有 学 者 提出 了 一 些 启发 式 方法 , 但 这 些 
问题 都 还 没有 公认 和 通用 的 解决 方案 。 一 般 来 说 ， 需 根据 任务 特点 设置 一 些 经 验 参 数 ， 
或 者 基于 数据 测试 得 到 较为 合理 的 参数 。 
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5.3.2 Bie Ra 


单 遍 聚 类 (single-pass clustering) 算法 是 一 种 简单 、 高 效 的 聚 类 算法 , 只 需要 遍历 
一 遍 数据 集 即 可 完成 聚 类 。 算 法 在 初始 阶段 从 数据 集中 读 入 一 个 对 象 ， 并 以 该 对 象 构建 
一 个 簇 。 随 后 逐个 读 入 一 个 新 的 对 象 , 并 计算 它 与 每 个 已 有 簇 之 间 的 相似 度 。 如 果 相 似 
度 小 于 规定 的 阔 值 , 则 产生 一 个 新 的 簇 , 如 果 相 似 度 大 于 规定 的 阔 值 ， 则 将 其 合并 到 与 
它 相似 度 最 高 的 簇 。 重复 上 述 过 程 , 直至 完成 数据 集中 所 有 对 象 的 处 理 。 

单 遍 聚 类 涉及 样本 与 聚 类 簇 的 相似 性 计算 。 常 见 的 相似 性 计算 方法 包括 : OP BY 
值 向 量 代表 簇 , 计算 两 个 样本 之 间 的 相似 度 ; @ 将 单个 样本 视 为 一 个 徐 ,， 利用 常见 簇 间 
的 相似 性 计算 方法 代替 。 算 法 的 具体 描述 如 下 。 


输入 : 数据 集 也 = {a1,20,--- , any}, FEET; 
输出 : 聚 类 划分 {51, So, an ,SM}. 

算法 : 

1.M=1; S;={a1}; m =a 

2. fori =2,---,N 

3. fork=1,---,M 

4 计算 样本 zi 与 my, 之 间 的 相似 性 d(x, mg) 

5. 选择 与 mi 相似 性 最 大 的 往 k* = arg max{d (æi, mx)} 
6. ifd(a,,mpe)>T 
7 
8 


将 mi 加 入 Spe: Spe — (Spe U £i) 
1 
更 新 Se 均值 向 量 : My = Bel > zj 


TjESk* 
9. else 


10. M+=1; Sm = {ai} 


算法 5.2 单 遍 聚 类 算法 


对 表 5.2 的 文本 集 进行 单 遍 聚 类 , 采用 欧 氏 距离 的 相反 数 作为 文本 的 相似 性 , 设置 
FRKE t = 一 2.35, 依次 遍历 文本 中 的 所 有 文档 , 计算 当前 文档 到 现 有 各 簇 中 心 点 
之 间 的 相似 度 ， 如 果 最 大 相似 度 大 于 阔 值 +, 则 将 该 文档 加 入 到 与 其 相似 度 最 大 的 簇 ; 否 
则 新 建立 一 个 徐 , 并 将 该 文档 加 入 到 新 的 建 徐 中 。 聚 类 过 程 如 下 : 

a. PEW IGE Cl. 将 样本 集中 的 第 一 个 文本 zi 加 入 C1， 当 前 聚 类 结果 为 
{Ci : {x1}}; 

b. 计算 文本 zs 到 C 中 心 点 的 相似 度 为 一 2.65, 因 相似 度 小 于 t+， 因此 新 建 簇 Co, 
并 将 za 加 入 Co, 聚 类 结果 为 {C1 : {x1}, Co: {xo}}s 

c. 计算 文本 zs GH C1, Co 中 心 点 的 相似 度 , 分 别 为 —2.00, —3.00, 因 最 大 相似 度 大 于 
BUA t, 因此 将 zs 加 入 到 与 之 相似 度 最 高 的 簇 C1, 聚 类 结果 为 {C1 : {zx1, £3}, C2 : {£2}; 

d. 计算 文本 za GRC. Co 中 心 点 的 相似 度 , 分 别 为 -3， 一 2.65, 因 最 大 相似 度 
AFRE t, 因此 需 新 建 徐 Cy, 并 将 zs 加 入 C3, 聚 类 结果 为 {C1 : {zx1, £3}, C2 : {xo}, 
Ca : {xa}}s 
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e. 文本 zs HAE C1, Ca, Cs 中心 点 的 相似 度 分 别 为 一 3, 一 3.61, 一 3.16, 因 最 大 相似 度 
AFRE ts 因此 新 建 徐 Cr, 并 将 zs MARE C4, 聚 类 结果 为 {C1 : {x21, £3}, C2 : {xo}, 
C3 : {x4} ,Ca : {zx5}}; 

f. 文本 ag 5 Cy, Co, C3, Ca 的 中 心 点 的 相似 度 分 别 为 一 3.32, 一 3.74, 一 3.61, 一 1.73， 
因 最 大 相似 度 大 于 阔 值 t 根据 聚 类 规则 将 其 加 入 到 与 之 相似 度 最 高 的 簇 Ca RRR 
为 {C1 : {zl £3} , C2 : {£2}, C3 : {x4}, C4 : {Ts, ze}}; 

g. 文本 x7 GIR Cy, Co, Cz, Ca 的 中 心 点 的 相似 度 分 别 为 —3.32, 一 3.61, 一 3.16, —1.66, 
因 最 大 相似 度 大 于 阔 值 t 因此 将 其 加 入 到 与 之 相似 度 最 高 的 徐 C4， 聚 类 结果 为 
{Cy : {21, £3} , C2 : {x2}, C3 : {x4} , C4 : {zs, £6, 77}}; 

h. 文本 ag Hf C1, Co, C3, Ca 中 心 点 的 相似 度 分 别 为 一 2.83, —3.46, —3.00, 一 2.36， 
因 最 大 相似 度 小 于 阔 值 t, 因此 需 新 建 徐 Cs, 并 将 zs 加 入 Cs, 聚 类 结果 为 {C1 : {221,25}, 
Cy: {£2} , C3 : {x4} , C4 : {Ls, £6, £7} , Cs : {ze}}; 

i. 文本 ag GH C1, Co, Cz, Ca, Gs 中 心 点 的 相似 度 分 别 为 -3.32, 一 3.32, 一 3.16, —2.81, 
一 1.73， 因 相似 度 大 于 阔 值 t+， 因此 将 其 加 入 到 与 之 相似 度 最 高 的 簇 Cs， 聚 类 结果 为 
{C1 : {1, £3}, C2 : {£2} ,Ca : {£4} , C4 : {25, £6, £7} , C5 : {La, £9}}; 

j. 文 本 x10 ÍK C1, C2, C3, Ca, Cs 中 心 点 的 相似 度 分 别 为 一 3.00, 一 3.61, —3.16, 一 2.56， 
一 1.66， 因 最 大 相似 度 大 于 阔 值 t+， 因此 将 其 加 入 到 与 之 相似 度 最 高 的 徐 Cs， 聚 类 结果 为 
{C1 : {£1, £3} , C2 : {£2} , C3 : {x4} , C4 : {as, £6, £7} , Cs : {zszo,zlo}}。 

至 此 , 语 料 中 的 全 部 文本 被 遍历 结束 ， 聚 类 结果 如 图 5.3 所 示 。 


a7 
100 2 
4 ‘ » 
50+@ 
*9 
3 
= 0 ° 
-50 26 
el x10 
—100 
-150 i x8 
-150 -100 -50 0 50 100 150 
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图 5.3 文本 聚 类 数据 集 的 单 遍 聚 类 结果 


单 遍 聚 类 算法 因 其 简单 、 高 效 的 特点 适用 于 大 规模 数据 、 流 式 数据 和 实时 性 要 求 较 
高 的 数据 聚 类 场景 , 如 在 话题 检测 与 跟踪 、 在 线 事件 检测 等 应 用 领域 得 到 了 广泛 使 用 。 
但 该 方法 也 存在 依赖 数据 读 入 的 顺序 、 阔 值 不 易 设 定 、 单 独 使 用 效果 较 差 等 缺点 。 


5.3.3 BRB 


层次 聚 类 (hierarchical clustering) 方法 依据 一 种 层次 架构 将 数据 逐 层 进行 聚合 或 分 
B, 最终 将 数据 对 象 组 织 成 一 棵 聚 类 树 状 的 结构 。 按 照 聚 类 树 生成 的 方式 可 分 为 自 底 向 
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上 的 聚合 式 层 次 聚 类 (agglomerative hierarchical clustering) 和 自 顶 向 下 的 分 裂 式 层次 
聚 类 (divisive hierarchical clustering). 
自 底 向 上 的 聚合 式 层 次 聚 类 方法 初始 时 将 每 个 数据 都 视 为 单独 的 一 类 ， 然 后 每 次 合 

并 所 有 类 别 中 最 相似 的 两 个 类 别 , 直至 所 有 的 样本 都 合并 为 一 个 类 别 或 者 满足 终止 条 件 
HR 

聚合 式 层次 聚 类 过 程 需要 计算 两 个 簇 之 间 的 相似 性 , 常见 的 度量 指标 包括 5.2.2 节 
介绍 的 最 小 距离 、 最 大 距离 和 平均 距离 等 。 在 层次 聚 类 中 它们 分 别 被 称 为 单 链接 (single 
inkage)、 全 链接 (complete linkage) 和 平均 链接 (average linkage). 

聚合 式 层 次 聚 类 算法 描述 如 下 。 


输入 : GER D = {xz1, 72，… an}, RRRRA K; 
输出 : 聚 类 划分 C = {C1, C2,:… ,Ck}。 


算法 : 
1. fori =1,---,N 
2. CO, = {xi} 


3. fori =1,---,N 

4. forj=1,---,N 

5 计算 两 两 答 间 的 相似 性 d(C, Cy) 

6. while size(C) >K 

T BRIER FOLHA Cy. 和 Cj- 

8. for h =1,--- , size ({Ck}) 

9. if h #4 i* and h Æ j* 

10. F INARIA d (Ch, Cie U Ci) 
11. REC 中 删除 Ci- 和 Cj- 

12. RRAC 中 添加 Oi. UC}. 

13. ENKRAT PERE, CRERASHABS 


算法 5.3 ”层次 聚 类 算法 


层次 聚 类 的 结果 可 以 用 如 图 5.4 所 示 的 树 状 图 表示 。 其 中 , 每 个 叶子 节点 表示 一 个 
FEA, 每 个 中 间 节 点 有 两 个 子 节点 , 表示 两 个 簇 聚 合 为 一 个 簇 。 叶子 节点 高 度 记 为 0, 每 
个 中 间 节 点 的 高 度 与 其 两 个 子 节点 间 的 相似 度 成 反比 。 在 合适 的 高 度 上 对 树 进行 横 切 ， 
得 到 不 同 数目 的 聚 类 结果 。 

以 下 对 表 5.2 中 的 文本 数据 集 进行 层次 聚 类 , 使 用 余弦 距离 度量 文本 间 的 相似 性 ， 
并 使 用 簇 平均 法 度量 各 簇 之 间 的 相似 性 。 聚 类 过 程 如 下 : 

a. 为 每 个 样本 初始 化 一 个 徐 , SEIN ME CN = 10, 为 语料库 中 的 样本 总 数 )。 初 始 
化 结果 为 {C1 : {x1}, C2 : {£2}, C3 : {£3}, C4 : {£4}, C5 : {£5}, Ce : {x6}, C7 : {x7}, 
Cs : {æs} , Co : {£9} ,Cio : {x10} }s 

b. 计算 两 两 篮 之 间 的 相似 度 , KA Cs 和 Cs 之 间 的 相似 度 最 大 , 为 0.79, 因此 将 两 簇 
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合并 , 聚 类 结果 为 {C1 : {x1}, C2 : {x2} ,Ca : {£3} ,Ca : {x4}, Cs : {£5, £6} , C7 : {x7}, 
Cs : {£s} , Co : {£9} ,Cio : {£10}}; 

c. EZRA, 并 将 相似 度 最 高 的 两 个 簇 C 和 Cs 合并 , 聚 类 结果 为 
{C1 : {a1,23},Co: {a2}, Ca: {aa}, Cs : {x5, 26}, Cr: {x7}; Ca: {ag}, Co: {ao}, 
Cro : {x10}}; 

d. 计算 两 两 簇 之 间 的 相似 度 , 并 将 相似 度 最 高 的 两 个 徐 Cs 和 Cz 合并 , 聚 类 结果 为 
{C1: {21, £3} , C2: {£2} , C4: {£4} , Cs: {£5, £6, £7}, Ce: {£8}, Co: {£9} , Cio: {x10}}; 

e. WEZER, H ARAE a KP MRE Cs 和 Co 合并 , 聚 类 结果 
为 {Cy : {a1, £3} , C2 : {x2} ,Ca : {£4} , Cs : {Ls, £6, £7} , Cs : {ag, £9} , Cio : {£10}}; 

f. REZEN, J SA PE ea ME Cs 和 Cyo 合并 , 聚 类 结 
RA {C1 : {1,23}, C2 : {£2} C4 : {x4} ,C5 : {Ls, £6, £7} ,Cs : {Ts, £9, T10}}; 

g 计算 两 两 簇 之 间 的 距离 ,并 将 当前 相似 度 最 高 的 两 个 徐 Cl 和 Cs 合并 , 聚 类 结果 
为 {C1 : {£1, £2, £3} , C4 : {x4}, C5 : {Ts, Te, £7} , Cs : {Ts, Lo, io} }s 

h. 计算 两 两 入 之 间 的 距离 ， 并 将 当前 相似 度 最 高 的 两 个 簇 C1 和 Cs 合并 , 聚 类 结 
KA {Cy : {£1, £2, £3, £4} , C5 : {£5, £6, £7} , C8 : {£8, £9, T10}}。 

此 时 簇 数 天 = 3， 层 次 聚 类 结束 ， 输 出 聚 类 结果 为 {C1 : {x1, 22,03, £4}, 


Cs : {zs, £6, z7} ,Cs : {Ls, £9, T10}} 


文本 序号 
图 5.4 文本 聚 类 数据 集 的 层次 聚 类 结果 


自 项 向 下 的 分 裂 式 层次 聚 类 过 程 与 自 底 向 上 层次 聚 类 过 程 相反 , 初始 时 将 所 有 的 样 
本 视 为 一 个 类 别 , 然后 逐次 将 它们 分 裂 为 更 小 的 类 别 单元 , 直到 所 有 的 样本 都 自 成 一 类 。 
详细 的 分 裂 式 层次 聚 类 算法 不 再 多 述 。 

分 裂 式 层次 聚 类 过 程 需 要 关注 如 下 两 个 问题 : 

(1) 选择 哪个 类 进行 分 裂 。 通 常 利用 类 内 散 度 衡量 类 内 部 数据 的 松散 程度 ， 然 后 选 
择 类 内 散 度 最 大 的 类 进行 分 裂 。 常 见 的 类 内 散 度 指标 包括 : 类 内 距离 最 远 的 两 个 样本 之 
间 的 距离 , 或 者 类 内 两 两 样本 距离 的 平均 值 等 。 

(2) 采用 哪 一 种 分 裂 策略 。 分 裂 式 层次 聚 类 过 程 比 聚合 式 聚 类 过 程 略 显 复杂 之 处 在 
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于 它 需要 依赖 另外 的 聚 类 算法 进行 类 分 裂 , 但 如 果 无 需 得 到 完备 的 二 又 聚 类 树 , 采用 速 
度 较 快 的 扁平 聚 类 算法 (如 K- 均 值 算法 ) 进行 中 间 类 别 分 裂 的 话 ， 可 以 使 分 裂 式 层次 聚 
类 方法 获得 比 聚 合式 方法 更 高 的 聚 类 效率 。 


5.3.4 ”密度 聚 类 


基于 密度 的 聚 类 方法 的 基本 思路 是 , 样本 空间 中 分 布 密集 的 样本 点 被 分 布 稀疏 的 
样本 点 分 割 , 连通 的 稠密 度 较 高 的 样本 点 集合 就 是 我 们 所 要 寻找 的 目标 徐 。 DBSCAN 
(density-based spatial clustering of applications with noise) 是 该 类 方法 中 的 经 典 算法 ， 
其 假定 类 别 可 以 通过 样本 分 布 的 紧密 程度 决定 。 

DBSCAN 算法 有 两 个 参数 : ERRE r, 二 是 形成 高 密度 区 域 所 需要 的 最 少 样 
本 数 n。 基 于 上 述 参数 , DBSCAN 算法 定义 了 以 下 基本 概念 。 

o r 邻 域 : FER P 的 7 BIRRA P 为 中 心 、r 为 半径 形成 圆 形 领域 。 

o 核心 样本 : WRA P 的 7 邻 域 中 的 样本 数 不 少 于 n, WEP 为 核心 样本 。 

o 密度 直达 : 如 果 样 本 Q 在 核心 样本 PP 的 7 BRA, 则 称 M P 密度 直达 。 

。 密度 可 达 : 如 果 存 在 一 个 样本 序列 Pi, Po Pro AMER t = 1,…,T 一 1， 
Paa 可 由 P, 密度 直达 , WEK Pr A Pi 密度 可 达 。 根据 密度 直达 的 定义 , 序列 中 的 传递 
样本 Pi, 已 ,… , Pra 均 为 核心 样本 。 

o 密度 相连 : 如 果 存 在 核心 样本 P, 使 得 样本 Q 和 Qo HIM P 密度 可 达 , WE Q 
和 Qo 密度 相连 。 

DBSCAN 算法 认为 , 对 于 任 一 核心 样本 P, 样本 集中 所 有 从 P 密度 可 达 的 样本 构 
成 的 集合 属于 同一 个 聚 类 。DBSCAN 算法 示意 图 如 图 5.5 所 示 , 其 中 n= 4, A 和 其 他 
空心 样本 为 核心 样本 , 边界 样本 BAC 为 非 核心 样本 。 PEAS B M O 都 是 从 4 密度 可 
达 的 , 即 B 和 C 是 密度 相连 的 , 所 以 它们 和 A 等 核心 样本 形成 一 个 聚 类 。 而 样本 入 则 
ES A, B, C 未 密度 相连 的 噪声 点 。 


图 5.5 DBSCAN 算法 示意 图 


DBSCAN 算法 从 某 个 核心 样本 出 发 , 不 断 向 密度 可 达 的 区 域 扩张 ， 从 而 得 到 一 个 包 
含 核心 样本 和 边界 样本 的 最 大 区 域 ， 该 区 域 中 任意 两 点 密度 相连 ,聚合 为 一 个 艇 。 接 着 
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寻找 未 被 标记 的 核心 样本 , 重复 上 述 过 程 , 直到 样本 集中 没有 新 的 核心 样本 为 止 。 样 本 
集中 没有 包含 在 任何 簇 中 的 样本 点 就 构成 噪声 点 簇 。 算法 流程 如 下 。 


WA: BARD, Fr, 形成 高 密度 区 域 所 需要 的 最 少 样本 数 n 
输出 : 目标 类 徐 集 合 C 

算法 : 

LC=8 

2. for P in D: 

让 尸 已 被 访问 : continue 

4, RE P hr 领域 包含 的 样本 集 Rp; 
5 if |Rp| <n: 

6. 标记 也 ARPA 

7. else: 
8 

9 


go 


新 建 一 个 类 徐 C, HH POAC 中 
RE P 的 7 邻 域 中 的 所 有 密度 直达 样本 集 Sp 
10. for Q in Sp: 


ii. EQ 为 噪声 样本 ， 将 Q Až C 
12. 若 @ 还 未 被 访问 , HQ HARR C 
13. RE Q 的 7 邻 域 中 包含 的 样本 集 Ra 
14. if |Rp| > n: 

15. Sp = S,URg 

16. 将 C 添加 至 C 


算法 5.4 ”密度 聚 类 算法 
下 面 对 表 5.2 所 示 的 文本 聚 类 数据 集 进行 DBSCAN 聚 类 ,设置 聚 类 半径 ”> = 2.1， 
最 小 样本 点 数 为 n = 3。 聚 类 过 程 如 下 : 
a. 标记 所 有 样本 为 未 访问 ,从 样本 集中 选择 样本 c 并 将 其 标记 为 已 访问 , e 以 7 
为 半径 的 邻 域 包含 zl 和 za, 样本 数 低 于 预 设 值 n, 因此 标记 zl 为 噪声 点 , 聚 类 结果 为 
{C1 : {z1}}; 
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图 5.6 文本 聚 类 数据 集 的 DBSCAN 聚 类 结果 
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b 取 未 访问 样本 x2, 将 其 标记 为 已 访问 , 计算 za 到 其 他 样本 之 间 的 距离 ,zs 以 
7 为 半径 的 邻 域 上 只 包含 za， 样 本 数 低 于 预 设 值 n, 因此 标记 zs 为 噪声 点 ， 聚 类 结果 为 
{C1 : {21, 22}}; 

c 取 未 访问 样本 za, 将 其 标记 为 已 访问 ,计算 样本 zs 到 其 他 样本 之 间 的 距离 ， zs 
Ar 为 半径 的 邻 域 包含 rı 和 za, 样本 数 低 于 预 设 值 n, 因此 标记 zs 为 噪声 点 , RKA 
果 为 {C1 : {zl,zazs}j; 

d. 取 未 访问 样本 xy, 将 其 标记 为 已 访问 , 计算 样本 zs 到 其 他 样本 之 间 的 距离 , w4 以 
r 为 半径 的 邻 域 具 包含 有 z4, 同 理 标记 zx4 为 噪声 点 , 聚 类 结果 为 {C1 : {21, £2, £3, L44}; 

e. 取 未 访问 样本 as, 将 其 标记 为 已 访问 , 计算 样本 zs 到 其 他 样本 之 间 的 距离 ，zs 
以 7 为 半径 的 邻 域 包 含 zs、ze 和 xr, 样本 数 不 低 于 预 设 值 n, 因此 标记 zs 为 核心 样本 
点 , W zs Ur 为 半径 的 邻 域 内 的 样本 ,如 果 样 本 标记 为 未 访问 ， 且 为 核心 样本 ， 则 将 
其 邻 域 样本 并 入 zs 的 邻 域 样本 集 , 并 将 该 样本 标记 已 访问 , 此 处 将 ze 和 zr 标记 为 已 
访问 , 聚 类 结果 为 {C1 : {x21, £2, za L4} ,Ca : {L5, L6, 27}}。 

f. 取 示 访问 样本 ag, 将 其 标记 为 已 访问 , 计算 样本 zs 到 其 他 样本 之 间 的 距离 ，zs 
以 7 为 半径 的 邻 域 包含 zs、zo、z1o, 样本 数 不 低 于 预 设 值 n, 因此 标记 zs 为 核心 样本 
点 , W ag Ur 为 半径 的 邻 域内 的 样本 , 如果 样本 标记 为 未 访问 ， 且 为 核心 样本 , 则 将 
其 邻 域 样本 并 入 zs 的 邻 域 样本 集 , 并 将 该 样本 标记 为 已 访问 , 此 处 将 ze 和 io 标记 为 
已 访问 ， 聚 类 结果 为 {C1 : {xz1, za, za 24} ,C2 : {L5, Te, £7}, C3 : {zs, £9, TZ10}}; 

g. 此 时 样本 集中 所 有 样本 均 标 记 为 已 访问 , 聚 类 结束 , 输出 聚 类 结果 为 : {Cy : {zi1， 


£2, L3, L4}, C2 : {Ts, Te, £7} ,Ca : {Ts, Lo, Lio} }o 


5.4 性 能 评估 


聚 类 性 能 评估 也 称 作 聚 类 有 效 性 (cluster validity) 分 析 。 常 用 的 聚 类 性 能 评估 方法 
有 两 种 : 一 种 是 根据 外 部 标准 (external criteria)， 通 过 测量 聚 类 结果 与 参考 标准 的 一 致 
性 评价 聚 类 结果 的 优 劣 ; 另 一 种 是 根据 内 部 标准 (internal criteria)， 仅 从 聚 类 本 身 的 分 
布 和 形态 评估 聚 类 结果 的 优 劣 。 


5.4.1 ”外 部 标准 


基于 外 部 标准 的 评估 方法 是 指 在 参考 标准 已 知 的 前 提 下 , 将 聚 类 结果 与 参考 标准 进 
行 比 对 ， 从 而 对 聚 类 结果 做 出 评估 。 参 考 标准 通常 由 专家 构建 或 人 工 标注 获得 。 

对 于 数据 集 D = {d,d,，… ,dn}， 假设 聚 类 标准 为 = {P,, Po , Pmp 其 中 
P, 表示 一 个 聚 类 和 能。 当前 的 聚 类 结果 是 C = {C1, C2,… , Ck}, 其 中 Ci 是 一 个 和 能。 对 于 
D 中 任意 两 个 不 同 的 样本 di 和 djs 根据 它们 隶属 于 C AP 的 情况 , 可 以 定义 四 种 关系 : 

Q) SS: d; 和 dj 在 C 中 属于 相同 簇 , EP 中 也 属于 相同 秘 ; 

(2) SD: d; 和 dj 在 C 中 属于 相同 簇 , EP 中 属于 不 同 簇 ; 
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(3) DS: di Ald; Æ C 中 属于 不 同 簇 , 在 P 中 属于 相同 簇 ; 
(4) DD: di Ald; 在 C 中 属于 不 同 簇 , TEP 中 也 属于 不 同 簇 。 
ida, b, c d 分 别 表示 SS, SD, DS, DD 四 种 关系 的 数目 , 可 导出 以 下 评价 指标 : 
e Rand 统计 量 (Rand index) : 
a+d 


RS = Foeta oe 
e Jaccard 系数 : 
a 
> (5.19) 
e FM 指数 (Fowlkers and Mallows index) : 
a a 
FMI = /i (5.20) 


上 述 三 个 评价 指标 的 取 值 范围 均 为 [0, 1], 值 越 大 表明 C AP 吻合 的 程度 越 高 , C 的 
聚 类 效果 越 好 。 这 些 指标 主要 考察 聚 类 的 宏观 性 能 , 在 传统 的 聚 类 有 效 性 分 析 中 被 较 多 
地 使 用 , 但 在 文本 聚 类 研究 中 并 不 多 见 。 

为 了 对 聚 类 结果 进行 更 加 微观 地 评估 , 通常 针对 聚 类 标准 中 的 每 一 复 P 和 聚 类 结 
果 中 的 每 一 簇 Ois 定义 以 下 微观 指标 : 

o 精确 率 (precision) : 


PG; 
P(P;,Ci) = | Ta il (5.21) 
t 
e 召回 率 (recall) : 
PNG 
R(P,0) = Bpa (5.22) 
了 
e F (a: 
Fy (p, 0) = ZP ERC) RPC) eae 


P(P;,C;) + R(P;, Ci) 
对 于 聚 类 参考 标准 中 的 每 个 簇 Pj 定义 Fi (Pj) = max {F (Pj, Ci)}, 并 基于 此 ,导出 反 
映 聚 类 整体 性 能 的 宏观 值 指标 : 


> [Bl «Fi (P;) 
DIF 


AK (5.23) 和 式 (5.24) 能 更 加 丰富 地 刻画 了 各 簇 聚 类 结果 与 聚 类 参考 标准 之 间 的 吻合 
BE, 是 基于 外 部 标准 评估 文本 聚 类 性 能 时 使 用 较 多 的 一 种 方法 。 


(5.24) 
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5.4.2 ”内 部 标准 


基于 内 部 标准 的 聚 类 性 能 评价 方法 不 依赖 于 外 部 标注 , 而 仅 靠 考察 聚 类 本 身 的 分 布 
结构 评估 聚 类 的 性 能 。 其 主要 思路 是 : 簇 间 越 分 离 (相似 度 越 低 ) 越 好 , PARE AH 
似 度 越 高 ) 越 好 。 

常用 的 内 部 评价 指标 有 : 轮廓 系数 、I 指数 、Davies-Bouldin 指数 、Dunn 指 
数 、Calinski-Harabasz 指数 、Hubert's T 统计 量 和 Cophenetic 相关 系数 等 。 这些 指 
标 大 多 同时 包含 凝聚 度 (cohesion) 和 分 离 度 (separation) 两 种 因素 。 以 下 仅 以 轮廓 系数 
为 例 进行 介绍 ， 其 他 方法 及 其 比较 可 参考 论文 [Liu et al., 2010]。 

轮廓 系数 (silhouette coefficient ) 最 早 由 Peter J. Rousseeuw 于 1986 年 提出 , 是 一 种 
常用 的 聚 类 评估 内 部 标准 。 对 于 数据 集中 的 样本 d, 假设 d HERI Ch, 计算 d 与 Cm 中 
其 他 样本 的 平均 距离 : 


XO dist (d,d’) 
dcC,,,,d#d’ 


ad) = [Cm] =1 


再 计算 a 与 其 他 簇 中 样本 的 最 小 平均 距离 : 


> dist (d,d’) 


Í d'eC, 
b(d) = min EEr 
C;j:1<jSk,j#m |Cj| 


其 中 , a(d) 反映 的 是 d 所 属 秘 的 凝聚 度 ， 值 越 小 表示 d 与 其 所 在 的 簇 越 凝 聚 ; 5(d) 反 
映 的 是 样本 d 与 其 他 艇 的 分 离 度 ， 值 越 大 表示 d 与 其 他 簇 越 分 离 。 
在 此 基础 上 定义 样本 d 的 轮廓 系数 为 : 


sca- 2D -ald 


max {a (d) ,b(d)} 
对 所 有 样本 的 轮廓 系数 求 平均 值 ， 即 为 聚 类 总 的 轮廓 系数 : 


1 N 
Sc= 3 SC(di) 


轮廓 系数 值 域 为 [一 1,1], 值 越 大 说 明 聚 类 效果 越 好 。 


5.5 ”进一步 阅读 


大 部 分 的 文本 聚 类 算法 先进 行文 本 表示 再 进行 聚 类 运算 , 文本 表示 及 其 相似 性 计算 
方法 的 优 劣 对 于 聚 类 效果 非常 关键 。 传统 的 文本 聚 类 算法 主要 采用 向 量 空间 模型 进行 文 
本 表示 , 这 种 传统 的 文本 表示 模型 存在 高 维 、 稀 政 、 不 利于 相似 性 度量 等 缺点 。 

在 文本 表示 维度 约 减 方面 , 基于 统计 的 特征 选择 方法 (如 互信 息 法 、 信息 增益 法 、 卡 
方法 等 ) 在 文本 分 类 任务 有 着 广泛 的 应 用 , 而 由 于 聚 类 数据 的 类 别 标签 未 知 ， 上 述 依赖 
类 别 标签 的 特征 选择 方法 在 文本 聚 类 中 并 不 适用 ,故而 采用 较为 简单 的 无 监督 指标 (如 
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文档 频率 等 ) 进行 特征 选择 。 无 监督 的 特征 提取 算法 (如 主 成 分 分 析 、 独 立成 分 分 析 ) 也 
是 文本 聚 类 任务 中 维度 约 减 的 一 种 选择 。 此 外 , 主题 模型 (如 潜在 语义 索引 、 概率 洪 在 语 
义 分 析 、 潜 在 犹 利克 雷 分 布 ) 也 提供 了 一 种 维 数 约 减 方法 , 它 将 传统 向 量 空 间 模 型 中 的 
高 维 稀 下 向 量 转 化 为 主题 空间 的 低 维 秽 密 向 量 , 这 一 过 程 也 可 以 理解 为 基于 主题 的 文本 
表示 。 此 外 , 一 些 工作 试图 结合 WordNet. SM. 维基 百科 语义 网 、 知识 图 谱 中 的 概念 和 
知识 来 指导 文本 的 表示 、 相 似 性 计算 和 聚 类 。 

近年 来 ， 随 着 分 布 式 表 示 学 习 的 兴起 ， 低 维 稠密 的 分 布 式 文本 表示 得 到 了 广泛 的 应 
用 。 例如 基于 词 向 量 进行 词 的 表示 , 青 通过 语义 组 合 得 到 句子 和 文档 的 表示 ,最 后 基于 
这 种 分 布 式 表示 进行 聚 类 运算 。 表 示 学 习 的 另 一 优势 就 是 可 以 学 习 到 与 任务 相关 的 文本 
表示 形式 。 上 述 优点 给 文档 聚 类 运算 的 性 能 和 效率 都 带 来 优势 。 

常用 的 聚 类 方法 除了 前 文 介绍 的 几 种 以 外 , 还 包括 基于 网 格 的 聚 类 、 基 于 子 空间 的 
聚 类 、 基 于 神经 网 络 的 聚 类 、 图 聚 类 、 谱 聚 类 等 方法 。 此外, 还 有 一 些 文本 处 理 领 域 特 有 
的 聚 类 算法 , 如 后 级 树 聚 类 (suffix tree clustering, STC) 算法 。 后 级 树 作 为 一 种 数据 结 
Bal, 最 早 为 支持 有 效 的 字符 串 匹 配 和 查询 而 提出 。 后 级 树 聚 类 算法 使 用 后 级 树 结构 表示 
和 处 理 文本 , 将 文本 看 作词 的 序列 而 非 词 的 集合 , 这 样 往往 能 够 更 充分 地 捕捉 文本 中 的 
词 序 信 息 , 达到 更 好 的 聚 类 结果 。 

文本 数据 流 聚 类 是 文本 聚 类 任务 的 一 个 特殊 问题 , 在 话题 发 现 与 跟踪 、 社交 媒体 挖 
掘 等 领域 具有 广泛 的 应 用 。 和 传统 的 文本 数据 聚 类 不 同 ， 上述 应 用 中 的 文本 数据 往往 以 
数据 流 的 形式 出 现 , 给 传统 的 文本 聚 类 带 来 了 挑战 。 前文 所 述 的 单 遍 聚 类 算法 是 一 种 适 
用 于 大 规模 文本 数据 流 的 、 实 时 性 较 高 的 文本 聚 类 算法 。 此 外 ,针对 已 有 的 经 典 文本 聚 
类 算法 , 也 出 现 了 若干 经 过 改进 的 在 线 文本 聚 类 算法 。 


6.1 概 述 


向 量 空间 模型 作为 一 种 显 式 的 文本 表示 方法 , 将 一 个 文本 表示 为 词 项 对 应 的 权重 
向 量 ， 并 假设 各 词 项 之 间 相 互 独立 。 这 种 表示 方法 虽然 简单 实用 ,但 却 破坏 了 文本 的 词 
序 信息 和 句法 结构 , 无 法 深入 挖掘 文本 中 的 多 义 性 (polysems) 和 同 义 性 (synonymys) 
等 隐 式 语义 关系 。 同 时 ,文本 的 生成 过 程 是 极其 复杂 的 ， 人 们 在 撰写 文本 时 通常 首先 拟 
定 “ 主 题 思想 ”等 抽象 概念 ,然后 再 形成 具体 的 文字 。 

为 了 解决 上 述 问 题 ， 自 然 语言 处 理 和 信息 检索 等 领域 的 研究 者 提出 了 一 系列 称 为 主 
题 模型 (topic model) 的 统计 模型 , 包括 潜在 语义 分 析 (latent semantic analysis, LSA), 
概率 潜在 语义 分 析 (probabilistic latent semantic analysis, PLSA) 和 潜在 狄 利克 雷 分 
fii (latent Dirichlet allocation, LDA) 等 。 建立 主题 模型 的 目的 就 是 要 从 文本 语 料 中 发 
现 隐藏 在 词汇 表面 之 下 的 潜在 语义 。 

下 面 的 文字 摘自 郁达夫 的 散文 《 故 都 的 秋 》。 文 中 用 加 下 划 线 的 词汇 是 地 方 和 处 所 词 ， 
加 双 下 划 线 的 词 是 植物 、 花 草 名 称 ， 加 波浪 线 的 词 是 动物 词汇 , 而 下 加 点 的 词 是 色彩 词 。 


不 轿 北 国之 秋 ， 已 将 近 十 余年 了 。 在 南方 每 年 到 了 秋天 ,总 要 想起 陶然 训 的 芦花 ， 
钓鱼 台 的 柳 影 ， 西 山 的 虫 喝 ， 玉 泉 的 夜 月 ， 潭 配 寺 的 钟 声 .在 北平 即使 不 出 门 去 罢 ,就 
是 在 皇 城 人 海 之 中 ， 租 人 家 一 橡 破 屋 来 住 着 ， 早 晨 起 来 ， 泡 一 碗 浓 茶 、 向 院子 一 坐 ， 你 
也 能 看 得 到 很 高 很 高 的 碧绿 的 天 色 ， 听 得 到 青天 下 驯 鲍 的 飞 声 。 从 槐 树叶 底 ， 朝 东 细 
数 着 一 丝 一 丝 漏 下 来 的 日 光 ,， 或 在 破 壁 腰 中 ， 静 对 着 象 喇叭 似 的 过 牛 花 ( 朝 荣 ) 的 蓝 
采 ， 自 然而 然 地 也 能 够 感觉 到 十 分 的 秋 意 。 说 到 了 这 牛 花 ， 我 以 为 以 蓝 色 或 白色 者 为 
佳 ， 紫 黑色 次 之 ， 淡 红色 最 下 。 最 好 ， 还 要 在 这 牛 花 底 ， 教 长 着 几 根 驮 跤 落落 的 拓 细 且 长 
的 秋 草 ， 使 作 陪衬 。 

北国 的 槐 树 ， 也 是 一 种 能 使 人 联想 起 秋 来 的 点 缓 。 象 花 而 又 不 是 花 的 那 一 种 落 芒 ， 
早晨 起 来 , 会 铺 得 满 地 。 脚 踏 上 去 ， 声音 也 没有 ,气味 也 没有 ,只 能 感 出 一 点 点 极 微细 
极 柔软 的 触觉 。 扫 街 的 在 树 影 下 一 阵 扫 后 , 灰 土 上 留 下 来 的 一 条 条 扫 曲 的 丝 纹 ， 看 起 来 
既 觉 得 细腻 ， 又 觉得 清闲 ,潜意识 下 并 且 还 觉得 有 点 儿 落 寞 ,古人 所 说 的 梧桐 一 叶 而 天 
下 知 秋 的 逐 想 ， 大约 也 就 在 这 些 深沉 的 地 方 。 

秋 蝉 的 衰弱 的 残 声 ， 更 是 北国 的 特产 ; 因为 北平 处 处 全 长 着 树 ， 屋 子 又 低 ， 所 以 无 
论 在 什么 地 方 ， 都 听 得 见 它 们 的 啼 唱 。 在 南方 是 非 要 上 郊外 或 山上 去 才 听 得 到 的 。 这 秋 
蝉 的 晰 叫 ， 在 北平 可 和 蜂 蜂 耗子 一 样 ， 简 直 象 是 家 家 户 户 都 养 在 家 里 的 家 虫 。 
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将 这 些 词汇 提取 出 来 可 以 得 到 如 表 6.1 所 示 的 主题 词 表 。 
表 6.1 文本 中 的 主题 示例 


主题 1 (地 名 ) 主题 2 (植物 ) 主题 3 (动物 ) 主题 4 (色彩 ) 
HRF 芦花 Sn Ady BR 
钓鱼 台 槐 树 Aki 蓝 色 
西山 EAE aha 白色 
BR AE 耗子 紫 黑 
Bes 梧桐 虫 唱 淡 红 


主题 模型 的 思想 最 早 源 自 于 信息 检索 领域 , Susan Dumais 等 学 者 提出 的 潜在 语义 
索引 模型 (latent semantic indexing, LSD 利用 奇异 值 分 解 (SVD) 技术 将 文档 向 量 从 高 
维 词 项 空间 映射 到 一 个 低 维 的 语义 空间 (主题 空间 )。 这 种 方法 可 以 发 据 文 本 隐 含 的 主题 
信息 , 而 且 不 需要 依赖 任何 先 验 知识 ， 从 而 能 够 对 “一 词 多 义 ” 和 “一 义 多 词 ”语言 现象 
进行 建 模 ,最 终 使 得 搜索 引擎 返回 的 结果 不 仅 在 词汇 层面 , 而 且 在 语义 层面 上 与 用 户 的 
查询 相 匹 配 。 

LSI 模型 建立 在 矩阵 分 解 框 架 之 上 , 而 Thomas Hofmann 提出 的 概率 潜在 语义 索引 
模型 (probabilistic latent semantic indexing, PLSI) 则 通过 概率 生成 模型 模拟 文档 中 词 
的 产生 过 程 , 将 LSI 模型 扩展 到 概率 统计 的 框架 下 。LSI 和 PLSI 模型 也 分 别称 作 LSA 
和 PLSA 模型 , 不 仅 用 于 信息 检索 , 还 广泛 应 用 于 文本 挖掘 其 他 任务 。 

PLSA 模型 只 针对 训练 集中 的 有 限 文档 进行 拟 合 ,其 参数 空间 随 着 训练 集中 文档 数 
日 线性 增加 ， 容易 出 现 过 度 拟 合 现象 ,而且 对 于 训练 集 以 外 的 文档 , 很 难 分 配合 适 的 概 
率 。 为 了 解决 这 些 问 题 , Darid Blei 等 学 者 提出 了 LDA 模型 ， 该 模型 在 PLSA 的 基础 上 
引入 了 参数 的 先 验 分 布 , 利用 贝 叶 斯 估计 取代 了 PLSA 中 的 最 大 似 然 估计 方法 , 完善 了 
PLSA 模型 。 LDA 模型 不 仅 作 为 一 种 文本 表示 方法 , 也 可 以 视 为 一 种 数据 降 维和 聚 类 算 
YE, 在 文本 挖掘 的 诸多 任务 上 得 到 了 广泛 而 成 功 的 应 用 。 


6.2 ”潜在 语义 分 析 


1988 年 ，Susan Dumais 等 学 者 提出 将 潜在 语义 分 析 LSA) 技术 用 于 分 布 式 语义 
(distributional semantics) 表示 [Dumais et al., 1998; Deerwester et al., 1990], 其 目标 是 
将 文本 表示 为 一 组 隐 式 的 语义 概念 , 而 不 是 向 量 空间 模型 (VSM) 中 一 组 显 式 的 词 项 。 

LSA 假设 语义 接近 的 词 更 容易 出 现在 相似 的 文本 片段 中 , 与 VSM 中 的 高 维 、 稀疏 
文本 表示 方法 不 同 , LSA 利用 奇异 值 分 解 (SVD) 技术 将 文档 和 词汇 的 高 维 表示 影射 在 
低 维 的 潜在 语义 空间 中 , 缩小 了 问题 的 规模 ,得 到 不 再 稀疏 的 低 维 表示 , 这 种 低 维 表示 
揭示 出 了 词汇 (文档) 在 语义 上 的 联系 。 这 种 潜在 的 语义 概念 称 为 主题 。 


6.2.1 ”奇异 值 分 解 


奇异 值 分 解 定 理 : 假设 矩阵 处 € R 为 任意 的 mm x n BABE, 矩阵 的 秩 为 
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r(r > 0), WX 一 定 可 以 分 解 为 
X=UBVT (6.1) 


其 中 , U e R™™ 为 满足 UTU = I Hm WEE, V e R"x" 为 满足 VTV =I 
的 mn MEERE, 允 为 左上 角 为 7 阶 的 对 角 阵 、 其 余 位 置 全 部 为 0 的 mx n MAEHE 
PE. U = [wa Um] 的 列 向 量 wi E R” HA X 的 左 奇异 向 量 (left-singular vector), V = 
[vi wn] 的 列 向 量 w E R” BA X 的 右 奇 异 向 量 (right-singular vector), X 的 左上 角 
对 角 元 素 ( 允 )i; = 6; BRA X 的 非 零 奇异 值 。 

矩阵 X 可 以 分 解 为 以 下 形式 : 


X =u] + + ruv (6.2) 


奇异 值 分 解 可 以 将 高 维 向 量 空间 中 的 数据 投影 到 低 维 的 正 交 空间 中 , 奇异 值 (及 其 对 应 
的 奇异 向 量 ) 可 以 用 于 度量 各 正 交 分 量 的 形态 和 信息 量 大 小 。 奇异 值 在 机 器 学 习 和 数据 
挖 据 等 领域 中 得 到 了 广泛 应 用 ， 如 主 成 分 分 析 (PCA)、 潜 在 语义 分 析 LSA) 等 。 在 这 
些 应 用 中 的 主要 思路 是 , 通过 截断 奇异 值 分 解 (truncated SVD) 保留 较 大 的 奇异 分 量 ， 
去 除 较 小 的 奇异 分 量 ， 从 而 在 低 维 正 交 空间 中 实现 对 高 维 原始 数据 的 约 减 和 近似 。 

在 对 X 进行 截断 奇异 值 分 解 时 截取 前 个 最 大 的 奇异 值 ,得 到 的 近似 矩阵 有 可 以 
表示 为 : 


x= dimer +-+ Opunvg (6.3) 
写成 矩阵 的 形式 : 
Š =UV (6.4) 
51 
其 中 , Dp = ay ; Ur = [ur --- ux], Vi = [vr ++ ve] 


Ok 


6.2.2 ” 词 项 -文档 矩阵 的 奇异 值 分 解 
对 于 给 定 的 文本 集合 , 首先 基于 向 量 空间 模型 构造 出 “ 词 项 -文档 矩阵 ”(term-by- 


document matrix): 


T1,1 Tin 
ea : 
Tml ` Tmn 
其 中 , m 表示 词 项 个 数 , n 表示 文档 数 , X 的 每 一 行 [zi …… tin) 表示 第 i 个 词 项 
在 各 文档 中 的 取 值 , 每 一 列 [z1,; … Lmg) 表示 第 j 个 文档 对 应 的 词 项 权重 向 量 。 
对 X 进行 SVD 分 解 : 
和 =D (6.5) 


其 中 , 马 是 由 非 零 奇异 值 01,… ,or(01 > 2 D--- D oy >0) 构 成 的 + 阶 对 角 和 矩阵 
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马 =diag(o ;07); mx r MERET M n xr MERED PRIZE ti, to tr 和 
dı, d2,… ,d; 分 别 构成 一 组 单位 正 交 向 量 , 即 满足 TTT = I, Al DTD = I, 
上 式 还 可 以 写成 7 个 秩 -1 矩阵 之 和 的 形式 : 


X =od! +---+0,t,d? 6.6 
T T 


奇异 值 01,… ,or ROR TS -EE X 中 隐 含 的 > 个 独立 概念 的 强度 。 对 应 第 了 个 
概念 , tj 表示 构成 此 概念 的 m 个 词 项 的 权重 ,dj 表示 nn 个 文档 包含 此 概念 的 权重 , tjd? 
则 表示 此 概念 所 对 应 的 词 项 -文档 关联 信息 。 

在 文本 表示 任务 中 ,由 于 特征 空间 维度 高 并 且 单 个 文档 长 度 短 , 传统 的 词 项 -文档 拢 
阵 呈 现 高 度 的 稀疏 性 。 同时, 高 维 词 项 之 间 具 有 较 高 的 线性 相关 性 。LSA 通过 对 词 项 - 文 
档 和 矩阵 X 进行 截断 奇异 值 分 解 , 在 式 (6.6) 中 选择 保留 前 (hk <r) 个 最 大 的 奇异 值 , 并 
将 这 上 个 奇异 值 及 对 应 的 奇异 向 量 构 成 的 正 交 空间 视 为 文本 的 潜在 语义 空间 。 这 意味 着 
通过 选择 个 潜在 语义 空间 中 的 主题 代替 mm 个 显 式 的 词 项 表示 文本 ， 从 而 实现 了 文本 
表示 从 m 维 到 大 维 的 降 维 , 并 得 到 原始 矩阵 AX 的 低 秩 近似 (low-rank approximation): 


X =oytid? + ---+ ortdi (6.7) 


写成 矩阵 的 形式 ， BI 

X =DD] (6.8) 
其 中 , Th = [ti ti] 称 作词 项 -主题 算 阵 ，Z = [dy --- dy] 称 作 文档 -主题 矩阵 。 上 述 过 
程 如 图 6.1 所 示 。 


文档 主题 


主题 文档 


a x |= Blow le 名 lz DT 


图 6.1 LSA 模型 的 矩阵 分 解 形 式 


6.2.3 ” 词 项 和 文档 的 概念 表示 及 相似 度 计 算 
利用 SVD 将 项 -文档 矩阵 分 解 之 后 ,我们 关心 以 下 五 个 问题 。 
1. 词 项 之 间 的 相似 度 


X 矩阵 中 的 每 一 行 对 应 一 个 词 项 在 不 同文 档 上 的 取 值 ,， 可 以 用 邓 的 两 个 行 向 量 的 
内 积 度量 不 同 词 项 之 间 的 相似 度 。 为 此 , 构造 二 次 对 称 矩 阵 XT 以 包含 所 有 词 项 的 
内 积 : 
RÅT = TX D] DE XTE 
= 7,3), (Ti. 5%) (6.9) 
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i 个 和 第 7 个 词 项 之 间 的 相似 度 , EX XT 中 第 i 行 、 第 7 列 的 元 素 等 于 TD, 
和 矩阵 中 相应 行 向 量 的 内 积 。 
如 果 采 用 余弦 相似 度 计算 方法 , 可 以 对 TE, 中 相应 的 行 向 量 予 以 正规 化 之 后 再 计 
算 向 量 内 积 。 
提取 式 (6.8) 矩阵 的 第 7 行 , 可 以 得 到 词 项 的 概念 表示 : 
[tia tin) = ltza e tye DE 


= [at orty] DE (6.10) 


2. 文档 间 的 相似 度 
与 上 述 方法 同样 道理 , Å 矩阵 中 两 个 列 向 量 的 内 积 可 以 用 于 度量 两 个 文档 之 间 的 
相似 度 , 构造 二 次 对 称 矩 阵 : 
XTX = DSTIT, DDF 
= (Dr Er) (Dr Zr)” (6.11) 
第 ; 个 和 第 了 个 文档 之 间 的 相似 度 即 为 TA 中 第 i 行 、 第 j 列 的 元 素 , 等 于 Dp Np HE 
阵 相 应 行 向 量 的 内 积 。 
同样 地 ， 如 果 采 用 余弦 相似 度 计 算 方 法 ， 则 只 需 对 Da Dy 的 行 向 量 进 行 正 规 化 ,再 
计算 向 量 的 内 积 即 可 。 
3. 文档 的 概念 表示 
提取 式 (6.8) 矩阵 的 第 i 列 , 可 以 得 到 第 i 个 文档 的 分 解 形式 : 
Ti = [zni i “Emil? 
= Tp Ep (dri dial" 
= Tk [oidi i er .akdkil (6.12) 
该 式 可 以 理解 为 文档 的 概念 表示 。 下 面 从 基底 变换 的 角度 对 此 进行 观察 。 若 视 词 项 -概念 
ERE Te 的 列 向 量 右 ,to,… te 为 基 , 文档 zi 在 新 的 坐标 系 下 的 坐标 就 是 XDE 的 第 
iH, BH [ordii “++ ordra]; F Ty De 的 列 向 量 dti, dota, Opty 为 基 ， 则 相当 于 将 


各 坐标 轴 按 照 奇异 值 进行 了 不 同 程度 的 拉 伸 ， 此 时 文档 mi 在 的 坐标 就 是 DT 的 第 i 列 
[os dx 


4. 词 项 与 文档 之 间 的 相关 性 
词 项 -文档 近似 矩阵 茂 本 身 就 体现 了 词 项 与 文档 的 相关 性 , 将 式 (6.8) 进行 改写 : 


É =T 5D] 
=A S DE (6.13) 
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DL Te EL? 为 坐标 系 , 第 j 个 词 项 的 概念 表示 为 [Vaitja… Vokt]: 以 DpH? 
为 坐标 系 , 第 i 个 文档 的 概念 表示 为 [Vdii… Voxds] 。 从 而 导出 第 j 个 词 项 与 第 i 
个 文档 之 间 的 相关 度 为 : 


k 
[Vortya Voxtsx] [Voidii :Voxdka] = >》 ontjndns 
h=1 
= [Ñ]; (6.14) 


5. 新 文档 的 概念 表示 
前 面 介绍 了 语 料 集 内 部 文档 的 概念 表示 和 相似 度 计算 方法 。 现在 的 问题 是 ， 如 何 得 
到 语 料 集 以 外 新 的 文档 的 概念 表示 呢 ? 
如 果 记 新 的 文档 向 量 为 w, A Te De 的 列 向 量 Oy ty, data, Ont, 为 坐标 系 ， zw' 在 
新 坐标 系 下 的 坐标 记 为 dr, 根据 式 (6.12) 可 得 
a! = TDrd’ (6.15) 
等 式 两 边 同 时 左 乘 Dp TE, RRS: 
d=- T 2! 
= Fa! (6.16) 
id F = D; TE ar eM Cfolding-in matrix), KRANE “Hp eR” 到 概念 空间 的 


6.3 ”概率 潜在 语义 分 析 


尽管 潜在 语义 分 析 LSA) 模型 简单 直观 , 但 是 缺乏 深度 的 数理 统计 解释 , 同时 ， 大 
规模 数据 SVD 运算 的 瓶颈 也 约束 了 LSA 模型 的 应 用 。Thomas Hoffmann 于 1999 年 提 
出 了 概率 潜在 语义 分 析 (PLSA) 模型 [Hoffmann, 1999], 将 潜在 语义 分 析 从 线性 代数 的 
框架 发 展 成 为 概率 统计 的 框架 。 


6.3.1 ”模型 假设 


PLSA 是 一 种 概率 图 模型 , 通过 概率 图 曾 述 文本 的 生成 过 程 。 如 图 6.2 ras, 其 中 ， 
随机 变量 d、w 和 z 分 别 表示 文档 、 词 项 和 主题 。d、w 是 可 以 观测 到 的 变量 , z 是 无 


@ 0-® 


d z w N 


图 6.2 PLSA 模型 概率 图 
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法 直接 观测 的 隐 变 量 。M、N 和 K 分 别 表示 词 项 数 、 文 档 数 和 主题 数 。PLSA 模型 则 将 
LSA 模型 中 的 文档 -主题 矩阵 DD 和 主题 - 词 项 矩阵 下 分 别 用 文档 -主题 分 布 p(z|d) ME 
题 - 词 项 分 布 p(w|z) 来 刻画 。p(zx|qdi) 表示 给 定 文档 di 主题 取 值 为 zr 的 概率 , p (wj|zx) 
表示 主题 为 z 条 件 下 词 项 取 值 为 wj 的 概率 。 

PLSA 模型 假设 每 个 文档 d 的 每 个 词 项 wj 是 通过 如 下 过 程 生成 的 : 

(1) 依据 概率 pldi) 选择 一 个 文档 di; 

(2) 依据 概率 p (rldi) 选择 一 个 潜在 的 概念 , 即 主题 zx; 

(3) 依据 概率 p (wj|zk) 生成 一 个 词 项 wy。 
由 图 6.1 可 知 , 观测 变量 (di, wj) 的 联合 分 布 为 : 


p (di, wj) = p (di) p (wildi) 


了 


K 
= p(di) >》 p(w;|ze)p(2e1di) (6.17) 
k=1 


其 中 , p(wj|zx) 和 p (zk|di) 是 模型 有 待 确定 的 参数 。 
6.3.2 SHE 
对 于 给 定 的 观测 数据 ，PLSA 模型 基于 最 大 似 然 估计 学 习 参 数 p(w;|zk) All p (zx|di) 


的 取 值 。 将 训练 语 料 视 为 多 个 文档 的 序列 , 每 个 文档 由 词 项 序列 组 成 , 那么 观测 变量 联 
合 分 布 的 似 然 函数 可 以 写成 : 


N M 
= tog J| [pwe 


i=1 j=1 
N M K 

=J > n(di,w;)logp (di) 》 p(w;lze)p(2rld:) (6.18) 
i=1 j=1 k=1 


其 中 , n (di, w) 是 词 项 w; 在 文档 di 中 出 现 的 次 数 。 
由 于 隐 变 量 的 存在 , 似 然 函数 C 包含 加 法 项 的 对 数 运算 ， 难 以 直接 进行 最 大 似 然 估 
计 ， 可 以 采用 利用 期 望 最 大 化 (expectation maximization, EM) 算法 求解 上 述 最 大 似 然 
估计 问题 。PLSA 模型 EM 算法 的 具体 推导 过 程 稍微 复杂 , 这 里 不 给 出 详细 过 程 ， 有 兴 
趣 的 读者 可 以 参阅 论文 [Mei and Zhai, 2006]。 以 下 直接 给 出 EM 算法 的 执行 流程 。 

。 赋值 初始 参数 OO = {p (w;lzr)® ,p(erld:)®}; 

© E-step: 在 当前 参数 @ = {p(w;lzn) ,p(zaldi\O} 下 ,计算 给 定 观测 变量 条 件 
下 隐 变 量 的 后 验 概率 : 


pil) _P (wsl2e) p (elas) (6.19) 
Yew ln) p (znld;) 
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e M-step: 针对 L 在 参数 OO 下 的 下 界 进 行 最 大 似 然 估计 ， 得 到 参数 OC: 


N 
Son (di, w;) p (zkldi, w;) 
P (wy)? = = (6.20) 
> > 2 (di, ws) p (2rldi, w) 


j=l i=1 


M 
Son (di, w) p (Ze|di, wj) 
p (zld) +) = j=1 


n (di) 
其 中 , n (di) 表示 文档 di 包含 的 词 项 总 数 。 

e EHIN E-step 和 M-step, 直到 算法 收敛 。 

对 于 新 的 文档 &， 如 何 获得 其 主题 分 布 呢 ? 通常 采用 如 下 方法 : 保持 原 训练 集 上 学 
习 得 到 的 参数 p(w|z) 固定 不 变 , 然后 在 新 文档 d 上 运行 EM 算法 , ERE p(zld’), 
直至 算法 收敛 。 


6.4 ”潜在 狄 利克 雷 分 布 


2003 年 , David Blei, Andrew Ng 和 Michael Jordan 在 PLSA 模型 的 基础 上 , 提出 
了 一 种 更 加 泛 化 的 文本 主题 模型 , 称 作 潜 在 狄 利克 雷 分 布 (LDA) [Blei et al., 2003]。 

在 PLSA 模型 中 , 文档 -主题 分 布 p(zk|di) 和 主题 - 词 项 分 布 p(w;|zk) 是 给 定 文档 生 
成 主题 和 给 定 主题 生成 词 项 的 依据 , 它们 都 服从 类 别 分 布 (categorical distribution) , 令 
分 布 参数 prj = p(w; |zn)> Oik = plzkldi), W prj 和 Oir 都 是 确定 型 变量 。 而 LDA 模型 将 
参数 prj 和 Oir 都 视 为 随机 变量 ， 并 以 狄 利克 雷 分 布 作为 参数 的 先 验 分 布 。 狄 利克 雷 分 布 
和 类 别 分 布 形 成 一 组 共 轿 分 布 , 并 相应 地 将 PLSA 中 的 最 大 似 然 估 计 推 广 为 贝 叶 斯 估计 。 


6.4.1 ”模型 假设 


LDA 模型 的 概率 图 如 图 6.3 所 示 。 双 圆圈 表示 可 观测 变量 (observed variable), 
单 圆圈 表示 潜在 变量 (latent variable), 箭头 表示 两 变量 间 的 条 件 依赖 性 (conditional 
dependency), 方 框 表示 重复 抽样 , 重复 次 数 在 方 框 的 右 下 角 。 

LDA 模型 参数 符号 的 含义 如 表 6.2 所 示 。 

LDA 假设 文档 的 生成 过 程 如 下 : 

(1) 对 每 个 主题 : 

生成 “主题 - 词 项 ”分 布 参 数 pk ~ Dir(B); 

(2) 对 每 个 文档 : 

生成 “文档 -主题 ”分 布 参数 Om ~ Dir(a); 
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(3) 对 当前 文档 的 每 个 位 置 : 

Ca) 生成 当前 位 置 的 所 属 主题 : zmn ~ Cat(gm); 

Cb) 根据 当前 位 置 的 主题 ,以 及 “主题 - 词 项 ”分 布 参数 ， 生 成 当前 位 置 对 应 的 
词 项 wnn ~ Cat(pz。n)。 


OF- 四 


Ke[l,K] 


图 6.3 LDA 模型 概率 图 


表 6.2 LDA 模型 的 主要 参数 


符号 含义 
M 文档 个 数 
K 主题 个 数 
V 词 项 个 数 ( 词 表 维度 ) 
a Om 的 先 验 分 布 超 参数 (K 维 向 量 ) 
B pr 的 先 验 分 布 超 参数 CV 维 向 量 ) 
05 第 m 个 文档 的 主题 分 布 参数 
Pk Bk 个 主题 的 词 项 分 布 参数 
Nm 第 m 个 文档 的 长 度 
Se Em 个 文档 第 n 个 词 对 应 的 主题 
Wmin 第 m 个 文档 第 n 个 词 对 应 的 词 项 
et 第 m 个 文档 对 应 的 主题 序列 
Wm = {Wm n} 第 m 个 文档 对 应 的 词 项 序列 
w= {wm} 文档 集 对 应 的 词 项 序列 
z= {zm}, 文档 集 对 应 的 主题 序列 


值得 一 提 的 是 ，[Blei et al., 2003] 原始 论文 并 没有 为 主题 - 词 项 分 布 参数 引入 
Dirichlet 先 验 分 布 , 后 续 的 LDA 模型 相关 研究 的 文献 对 此 进行 了 修正 。 此 外 ， 原 始 论 
文 利 用 泊 松 分 布 刻画 文档 长 度 这 一 随机 变量 , 对 每 个 文档 , 首先 根据 泊 松 分 布 生成 文档 
长 度 Nm ~ Poiss(€)。 但 是 , 这 个 假设 并 不 影响 整个 模型 对 于 词 项 和 主题 分 布 的 推理 。 在 
LDA 后 续 的 研究 中 , 大 都 不 再 对 文档 的 长 度 单独 进行 建 模 。 
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6.4.2 ” 词 项 和 主题 序列 的 联合 概率 
假设 w、z 分 别 为 文档 集 对 应 的 词 项 序列 和 主题 序列 , 根据 概率 图 , w 和 z 的 联合 
分 布 可 以 因子 化 为 两 部 分 : 
p(w, z; æ, B) = p (w|z; a, B) p (z; a, B) = p (w|z; B) p(z; a) (6.21) 
其 中 , p(z;a) 为 主题 序列 的 概率 , p (ao|z; B) 为 给 定 主题 条 件 下 词 项 序列 的 概率 。 
根据 模型 假设 ， 第 m 个 文档 第 n 个 位 置 对 应 的 主题 zmn ~ Cat(Om) BI p(zmn = 


k|Om) = 9m,k。 类 别 分 布 的 多 次 试验 对 应 多 项 分 布 , 因此 , 给 定 参数 Om 条 件 下 主题 序列 
zm 的 概率 为 : 


Nm K 
P(2m|Om) = [[ p(nl0m) = [ow (6.22) 
n=1 k=1 


其 中 Nm 表示 第 m 个 文档 的 长 度 , 天 表示 主题 个 数 , nm,x,. 表示 第 m 个 文档 中 主题 大 
出 现 的 次 数 。 

在 LDA 模型 中 “文档 -主题 ”分 布 参数 9 并 不 是 唯一 确定 的 , 而 是 一 个 随机 向 量 ， 
服从 Dirichlet 分 布 。 8 取 值 为 Om 的 概率 密度 为 : 


1 K 
gre} (6.23) 


P(Om; a) = Ale) 1 aa 


K 
[re 


其 中 , A (a) = = 


9 
(Š) 
i=l 
zm 和 Om 的 联合 概率 为 : 
P(Zm; Om; &)= p(zm|Om)p(Om; a) 
1 K 
aE ICA (6.24) 
k=1 
通过 对 联合 概率 中 的 Om 求 积 分 ,得 到 边缘 分 布 : 
P(2m3 &) = [Gm enia) dOm 


1 K 
= ~ C a 
A (a) / Il . 


— Alm,- +a) 
A(a) 


HP, nm., = {nmk} 等 式 用 到 了 Dirichlet 分 布 性 质 。 


(6.25) 
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整个 语 料 由 M 个 相互 独立 的 文档 构成 , 因此 得 到 整个 语 料 的 主题 序列 概率 为 : 
M 
p(z;a) = [[ pma) 
m=1 
tad Alim + @) 
= I Ale) (6.26) 


采取 上 述 同样 的 思路 可 求解 主题 条 件 下 词 项 序列 的 概率 。 在 给 定 了 


下 , 词 项 w 的 服从 “主题 - 词 项 ”类 别 分 布 : 
p(w = 120 =k) = pra 


Em 2 =k 条 件 


文档 中 各 词 项 的 生成 过 程 是 相互 独立 的 。 记 wk 为 全 部 语 料 中 主题 为 的 词 项 构成 的 序 


列 , 在 给 定 参 数 pk RIEF, wr 的 概率 为 : 
P(welze, pr)= [[ Pwl =k, pr) 
{i:z=k} 


V 

= Ns kt 

= Il Pkt 
t=1 


其 中 , n. ye 表示 文档 集 词 序列 中 第 个 主题 下 词 项 t 出 现 的 次 数 。 


(6.27) 


同样 ,px 也 并 非 唯一 确定 , 它 是 根据 超 参 B 从 Dirichlet 分 布 中 随机 抽取 而 得 , 其 


概率 密度 为 
a l Tp 
ppr; B) = a l 
K 
T r6) 
其 中 , A (8) = =. 


r 
1 
K 
r(5 2) 
i=l 
在 给 定 zk 条 件 下 , we 和 pr 的 联合 概率 为 : 
Pwr, Pk|zk; B)= P(We|Z%, Pk)P(Pr; B) 


二 Il ne net hel 
~ DGB) LA Pe 
通过 对 联合 概率 中 的 wk 求 积分 , 得 到 边缘 分 布 : 
Pp (wrlzk; B) = J pien prlm PJ ap 


1 a 

N+ k,t+Be—1 
= 一 oprt dpr 
zaJ k,t 


_ A(n. x, +B) 
A(B) 


HP, neg. = {n.k} 等 式 用 到 了 Dirichlet 分 布 性 质 。 


(6.28) 


(6.29) 


(6.30) 
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因为 词 项 的 生成 过 程 是 相互 独立 的 , 因此 得 到 整个 语 料 范围 下 , 给 定 主题 序列 z, 词 
项 序列 w 的 概率 为 : 


K 
p (wlz; B) = |] p (wrlzx;B) 


ki 
= 9 A(n: k +B) 
z II (6.31) 


综合 上 述 两 部 分 因子 , 得 到 词 项 和 主题 序列 的 联合 概率 为 : 


p(w,z; a, B) = p (w|z; B) p(z; x) 


E Aln. k. +B) tr A(nm,., 
“II k I Ry (6.32) 


6.4.3 ”模型 推断 


除了 超 参数 a 和 B, LDA 模型 没有 其 他 确定 的 参数 , LDA 中 的 模型 参数 On 和 pk 
是 随机 变量 , 符合 Dirichlet 先 验 分 布 。 在 概率 图 模型 背景 下 , 模型 推断 指 的 是 根据 特定 
的 观测 变量 推断 隐 变 量 取 值 的 过 程 。 具体 地 讲 , 就 是 在 给 定 观 测 数据 w 的 条 件 下 , 基于 
贝 叶 斯 推断 方法 对 主题 概率 分 布 p(zlw) 进行 推断 ， 以 及 对 Om 和 wk 后 验 分 布 进行 估计 
的 过 程 。 

LDA 模型 难以 进行 精确 地 学 习 和 推断 。 通常 的 解决 方案 是 使 用 近似 推断 算法 ,如 采 
用 变 分 期 望 最 大 化 算法 (variational expectation maximization)、 期 望 传播 (Expectation 
Propagation, EP) 算法 和 马尔 可 夫 链 蒙特 卡 罗 (Markov chain Monte Carlo, MCMC) 
算法 等 。 论文 [Blei et al., 2003] 中 使 用 了 变 分 EM 算法 进行 模型 学 习 , 而 论文 [Griffiths 
and Steyvers, 2004] 提出 了 基于 Gibbs 采样 的 LDA 近似 推断 算法 。Gibbs 采样 (Gibbs 
sampling) 是 马尔 可 夫 链 蒙特 卡 罗 (Markov chain Monte Carlo, MCMC) 算法 的 一 种 代 
Ke LEB» Gibbs 采样 算法 更 加 简单 有 效 , 且 易 于 工程 实现 , 因此 是 主题 模型 中 最 常 
采用 的 参数 估计 方法 。 以 下 重点 介绍 这 种 算法 。 

MCMC 是 一 种 基于 马尔 可 夫 链 的 分 布 模拟 抽样 方法 , 常常 用 于 解决 高 维 随机 变量 
难以 直接 抽样 的 分 布 抽样 问题 。 其 基本 思想 是 : 设 定 一 个 马尔 可 夫 链 , 使 其 平稳 分 布 等 
于 需要 抽样 的 目标 分 布 , 通过 在 该 马尔 可 夫 链 平稳 分 布 上 的 采样 模拟 目标 分 布 的 采样 。 
当 马 尔 可 夫 链 进入 平稳 状态 之 后 , 它 的 概率 分 布 将 收敛 到 一 个 唯一 的 平稳 分 布 上 , 且 每 
次 转移 都 能 生成 该 分 布 对 应 的 样本 。 

Gibbs 采样 是 MCMC 中 一 种 最 为 简单 和 常见 的 实现 方法 。 设 目标 分 布 是 p(x), 
Gibbs 采样 每 次 固定 x 的 一 个 维度 , 根据 其 他 维度 的 取 值 zC5 推断 O 维度 上 的 分 布 
p(x, 29) 

per) 


p (|e) = (6.33) 


来 生成 该 维度 的 样本 。 
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LDA 模型 推断 的 目标 是 分 布 p(zlw), 其 中 词 项 序列 w 是 可 观测 变量 , 主题 序列 z 
是 隐 变 量 , 则 需 通 过 对 条 件 分 布 p(z 中 |z(m,rw) 进行 采样 。 假设 文本 序列 中 第 i 位置 的 
文档 为 m, WHA Y, 主题 为 kA dO =m’, w® =t, 2M =k), 经 过 推导 可 得 : 


OD gy) — PWZ) 
p(z |z w) p(w, a 
ni u + Per 
Pw th (na. tav) (6.34) 


DEAT 


其 中 , nO ,表示 文本 序列 除去 第 i 个 位 置 后 , 第 m 个 文档 中 主题 出 现 的 次 数 ; nR, 
表示 文本 序列 除去 第 i 个 位 置 后 , 主题 上 下 词 项 t 出 现 的 次 数 。 式 (6.34) 的 详细 推导 过 
程 可 参阅 论文 [Heinrich, 2009]. 

在 最 大 似 然 估 计 和 最 大 后 验 概率 (MAP) 框架 中 , 模型 参数 是 确定 值 , 可 以 直接 估 
the LDA 基于 贝 叶 斯 推断 框架 ， 其 模型 参数 服从 一 个 分 布 ， 而 非 确定 值 , 因此 无 法 直接 
估计 其 值 。 但 是 可 以 计算 参数 的 后 验 分 布 ,并 使 用 分 布 的 统计 量 (如 期 望 、 方 差 ) 对 参数 
性 质 进行 描述 。 

根据 LDA 模型 假设 以 及 Dirichlet-Multinomial 共 斩 分 布 的 性 质 , 不 难得 到 “文档 主 
题 ”类 别 分 布 参数 gw 和 “文档 -主题 ”类 别 分 布 参数 wk 的 后 验 分 布 ， 与 其 先 验 分 布 同 
样 ,也 服从 Dirchelet 分 布 : 


K 
A 1 mm 大 。 十 ak 一 
P(8m|2m; Wm; &) 一 和 ae Mor (6.35) 


p (pr|wr, zk; B) = xem li Pale (6.36) 


用 后 验 分 布 的 期 望 值 作为 参数 的 估计 值 , 根据 Dirichlet 分 布 期 望 的 性 质 , 可 得 : 


Nn. kt + Be 


Prt = El eet) = = (6.37) 
2 Nn. kt +t 
Ôm, = E (Omp) = pm HR (6.38) 
Nm,k, + Qk 
k=l 


从 上 述 结果 可 以 看 出 , 贝 叶 斯 估计 框架 下 的 多 项 分 布 参数 估计 值 同 时 体现 了 数据 统 
计 信 息 和 参数 先 验 信息 。 与 LSA、PLSA 等 完全 基于 数据 的 参数 估计 相 比 , LDA 可 以 通 
过 参数 先 验 分 布 的 引入 弥补 有 限 数据 统计 存在 的 缺陷 , 从 而 提高 模型 的 泛 化 性 能 
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综 上 所 述 , Gibbs 采样 算法 对 文本 序列 中 的 每 个 位 置 i, 通过 采样 p (2O|209, w) Æ 
成 该 位 置 对 应 的 主题 从 而 构造 出 一 个 在 各 状态 间 转 换 的 马尔 可 夫 链 (Markov chain) 。 
当 马 尔 可 夫 链 经 过 准备 阶段 (burn in period), 消除 了 初始 参数 的 影响 并 进入 平稳 状态 
之 后 ,该 平稳 分 布 就 可 以 作为 目标 分 布 p(zlw) 的 近似 推断 。 算法 流程 如 下 : 


输入 : 文档 数 M, 每 篇 文档 长 度 Nm 文档 集 对 应 的 词 项 序列 w, MRK, RAHA 
Fe p, 最 大 迭代 次 数 工 ; 

输出 : 主题 向 量 z， 多 项 分 布 参 数 估 计 值 名 和 日 。 

Hinte 


3: ftn= l Ns 

4. 随机 初始 化 主题 smm = k ~ Cat ($ a a x) 
#Gibbs 采样 

6. 4=0 

6. while 上 < 了 或 算法 收 化 

T. for m= 1,--- ,M 


8. forn=1,---,Nm 

9. Cb = 

10. Nmk,—=1, n.k =l, nm,.,.—=1, n.g,.—=1 
HM. 依据 式 (6.34 ) 采 样 znmn = k ~ p (2/29, w) 

12. Nm k =l, nt El, mm. +=1, ng. t=l 
13. t=1 

# 参 数 估计 


14. 根据 式 (6.31) 估 计 Prt 和 Ome 


算法 6.1 Gibbs 采样 算法 
6.4.4 ”新 文档 的 推断 


新 文档 dm 上 的 “文档 -主题 ”分 布 Om 的 推断 , 需要 在 训练 集 Gibbs 采样 的 基础 上 ， 
继续 在 dm 上 运行 Gibbs 采样 。 以 训练 集中 学 习 得 到 的 “主题 - 词 项 ”分 布 pk 作为 基础 ， 
在 采样 器 中 保持 其 不 变 , 仅 针对 Om 重新 采样 : 

p(2 jw, 2, w, z) cc Gren. + ax) 
N. ktt 应 


E Son. net Pe 


其 中 , 新 文档 dm 第 i 个 位 置 对 应 的 词 项 好 = t, 主题 去 
之 后 文档 dm 中 主题 出 现 的 次 数 。 


(nod. + ax) (6.39) 


。nG ,是 除去 第 i 个 位 置 
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采样 收敛 后 , 使 用 期 望 作为 对 新 文档 主题 分 布 的 估计 : 
Om = E (0m) = 了 元 大, + Qk 
E Paa YO nmk. 十 ok 
k 


(6.40) 


6.4.5 PLSA 5 LDA 的 联系 与 区 别 


从 本 质 上 来 说 ,， LDA 在 PLSI 模型 的 基础 之 上 将 狄 利克 雷 先 验 分 布 引入 到 了 “ 文 
档 -主题 ”分 布 和 “主题 - 词 项 ” 分布， 模型 的 学 习 和 推断 算法 也 从 最 大 似 然 估计 转化 为 了 
贝 叶 斯 估计 。 

在 PLSA 中 ,“ 文 档 -主题 ”分 布 p(z|d) 和 “主题 - 词 项 ”分 布 p(w|z) 都 是 事先 确定 
的 ， 可 以 利用 最 大 似 然 估计 方法 从 数据 集中 估计 得 到 。 生 成 文本 时 ，PLSA 首先 根据 文 
档 对 应 的 “文档 -主题 ”分 布 p(z|d), 为 每 个 词 选择 一 个 主题 , 再 根据 “主题 - 词 项 ”分 布 
p(w|z) 产生 一 个 具体 的 词 。 

TE LDA 模型 中 , “文档 -主题 ”分 布 参 数 不 是 确定 的 , 它 是 一 个 随机 变量 , Om 是 其 具 
体 取 值 ， 是 根据 超 参数 a 由 Dirichlet 分 布 抽取 出 来 , 它 不 像 在 PLSA 模型 里 是 必须 学 
习 的 参数 ,因此 参数 空间 不 会 随 着 文档 数 的 增加 而 增加 。 但 是 , 在 实际 应 用 中 仍然 常常 
需要 计算 Om 的 统计 量 (如 期 望 ) 作为 对 “文档 -主题 ” 分布 的 估计 。 同 时 , “主题 - 词 项 ” 
分 布 参数 wk 也 不 是 事先 确定 的 , 是 根据 超 参 数 B 由 Dirichlet 先 验 分 布 抽取 得 到 的 。 

Dirichlet 先 验 分 布 及 其 超 参 数 a、B 体现 了 在 给 定数 据 之 前 的 模型 先 验 知识 , 结合 
数据 中 的 似 然 知识 , 得 到 参数 Om A wk 的 后 验 分 布 , 从 式 (6.37) 和 式 (6.38) 可 以 看 出 ， 
参数 后 验 分 布 的 期 望 同时 包含 先 验 信息 和 数据 知识 。 贝 叶 斯 估计 是 结合 模型 先 验 知识 和 
数据 似 然 信息 , 对 参数 的 后 验 概率 进行 估计 , 推断 参数 的 过 程 。 

综 上 所 述 , PLSA 基于 最 大 似 然 对 参数 进行 点 估计 , 而 LDA 则 基于 贝 叶 斯 推断 对 参 
数 后 验 分 布 进行 估计 。[Girolami and Kaban, 2003] 的 研究 表明 , PLSA 本 质 上 是 一 个 基 
于 MAP 估计 且 具 有 统一 先 验 分 布 Dir(1) 的 LDA 模型 。 
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LDA 是 文本 分 析 领 域 最 受 关注 的 模型 之 一 , 在 文本 挖掘 诸多 任务 上 有 着 广泛 的 应 
用 。 首先 , 它 可 以 作为 一 种 降 维 的 工具 。 由 于 LDA 模型 训练 完成 后 , 能 够 得 到 一 个 文档 
在 主题 空间 的 表示 , 在 词 项 空间 中 进行 的 一 些 文档 处 理 可 以 通过 LDA 模型 在 主题 空间 
中 完成 ,如 文档 分 类 、 聚 类 等 。 此外, 利用 主题 模型 中 的 参数 估计 值 , 还 可 以 完成 协同 过 
YES 单词 或 文档 相似 度 计算 、 文 本 分 段 等 任务 。 但是, 传统 的 LDA 模型 是 一 种 基于 无 监 
督 机 器 学 习 的 文本 分 析 方法 , 它 只 对 简单 的 文档 和 主题 关系 进行 建 模 , 没有 考虑 复杂 文 
档 /主题 关系 、 富 文本 信息 、 时 序 信息 等 。 为 了 解决 上 述 问题 , 出 现 了 大 量 的 LDA 模型 
扩展 工作 。 

针对 复杂 的 文档 /主题 关系 , 文献 [Blei and Lafferty, 2006] 提出 了 一 种 相关 主题 模 
型 (correlated topic model, CTM), 通过 采用 Logistic 正 态 分 布 代替 Dirichlet 先 验 分 布 
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捕捉 潜在 主题 之 间 的 相关 性 。[Blei et al., 2004] 提出 了 一 种 层级 LDA 用 于 对 树 状 层 次 的 
主题 进行 建 模 。[Li and McCallum, 2006] 提出 的 PAM (Pachinko allocation model) 将 
主题 之 间 的 关系 表示 成 一 个 有 向 无 环 图 , 而 RTM (relational topic models) [Chang and 
Blei, 2009] 针对 具有 链接 关系 的 文档 〈 即 文档 网 络 ) 进行 主题 建 模 。RTM 在 传统 LDA 
之 后 , 进一步 对 具有 链接 关系 的 一 对 文档 进行 链接 关系 的 抽取 , 依据 两 个 文档 主题 分 布 
的 相似 性 生成 其 链接 关系 。 

在 传统 的 无 监督 LDA 的 基础 上 , 文献 [Mcauliffe and Blei，2008] 提出 了 监督 
LDA (supervised latent Dirichlet allocation, SLDA) 模型 , 在 文本 中 引入 文档 的 类 别 标 
号 作为 监督 信息 , 类 别 标号 服从 与 文档 主题 相关 的 正 态 线 性 分 布 , 这 种 标注 信息 作为 监 
督 信息 约束 和 影响 主题 建 模 ,同时 达到 文本 分 类 等 监督 学 习 的 目的 。 与 SLDA 的 思路 不 
同 , [Ramage et al., 2009] 提出 的 有 标记 LDA (labeled LDA) 模型 用 多 维 向 量 表示 文档 
的 类 别 标注 , 在 主题 建 模 中 直接 建立 类 别 标注 向 量 与 文档 -主题 分 布 参数 之 间 的 关系 , 其 
中 主题 与 类 别 标注 一 一 对 应 ,从 而 监督 模型 学 习 到 的 主题 具有 类 别 意义 。 

在 不 同类 型 的 文本 挖掘 任务 中 , 除了 纯 文 本 内 容 以 外 , 还 包含 了 很 多 非 文 本 变量 ， 
如 用 户 的 兴趣 、 发 文 的 时 间 、 地 点 等 。 为 了 更 好 地 在 主题 建 模 中 融合 这 些 外 部 变量 , 产 
生 了 一 系列 的 LDA 变 体 。[Steyvers et al., 2004] 提出 了 作者 -主题 模型 (author-topic 
model, ATM), 在 文本 生成 的 过 程 中 建立 用 户 模型 ,为 每 个 作者 设 定 一 个 主题 - 词 项 分 
布 。[McCallum et al., 2005] 提出 了 Author Recipient Topic (ART) 模型 。 在 该 模型 中 ， 
文本 中 主题 和 词 项 的 生成 是 由 作者 和 接受 者 共同 决定 的 。 除 了 考虑 用 户 模型 以 外 ，[Zhao 
et al., 2011] 还 提出 了 一 种 Twitter-LDA 模型 , 用 于 对 通用 背景 进行 建 模 , 在 生成 每 个 
词 项 时 先生 成 一 个 用 户 模型 和 通用 模型 选择 器 , 再 利用 各 自 的 主题 - 词 项 分 布 进行 文本 生 
成 。 在 社交 媒体 文本 挖掘 任务 中 还 有 很 多 LDA 扩展 的 方法 ,引入 了 时 间 、 地 点 、 兴 
社区 、 网 络 结构 等 各 种 非 文本 内 容 信 息 。 在 评论 文本 时 , 词 项 除了 包含 主题 信息 以 外 , 还 
包含 情感 信息 。[Mei et al., 2007] 在 传统 主题 模型 的 基础 上 引入 了 情感 变量 ， 提 出 了 一 
种 主题 -情感 混合 模型 TSM (topic-sentiment mixture)。 后 续 工 作 还 包括 多 属性 情感 分 
析 (multi-aspect sentiment analysis, MAS) 模型 [Titov and McDonald, 2008]、 主 题 - 情 
感 联合 (joint sentiment-topic, JST) 模型 [Lin and He, 2009] 等 。 我 们 将 在 7.5.3 节 对 这 
些 模型 展开 叙述 。 

传统 的 主题 模型 是 针对 静态 文本 数据 进行 建 模 的 , 但 是 文本 数据 流 的 主题 是 动态 
的 , 随时 间 而 变化 。 为 了 刻画 主题 随时 间 变化 的 信息 , [Blei and Lafferty, 2006] 提出 了 动 
态 主题 模型 (dynamic topic model), 对 数据 流 按时 间 切 片 ， 并 假设 时 间 序 列 上 的 a 和 
有 参数 满足 一 阶 马尔 可 夫 假设 。[Wang and McCallum, 2006] 提出 的 TOT (topic over 
time) 模型 则 从 另 一 个 途径 引入 了 时 间 信 息 ， 他 们 认为 时 间 标 签 是 可 观测 的 ,将 时 间 变 
量 引入 概率 图 模型 ， 并 通过 文档 -主题 分 布 参数 将 主题 / 词 项 生成 与 时 间 标 签 关联 起 来 。 
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7.1 概 述 


随 着 计算 机 网 络 技术 的 快速 发 展 和 普及 ,互联 网 已 经 进入 了 Web 2.0 时 代 。 早期 
的 Web 1.0 时 代 以 网 站 集中 编辑 、 发 布 信息 为 特征 ， 网 络 文 本 以 静态 网 页 的 形式 大 
量 存 在 。Web 2.0 强调 的 是 用 户 与 网 站 之 间 和 用 户 与 用 户 之 间 的 互动 , 网 民 参 与 网 站 
内 容 的 提交 、 生 成 和 传播 , 实现 了 网 站 与 用 户 的 双向 交流 。 尤 其 进入 社交 媒体 (social 
media) 时 代 以 来 , 一 大 批 带 有 SNS (social network service) 性 质 的 网 站 、 工具 和 产品 ， 
tl Twitter, Facebook, WER MRE, 迅速 发 展 成 为 互联 网 平台 的 新 生 力 量 , 担负 起 了 
真实 社会 与 虚拟 空间 无 颖 连接 的 重大 使 命 。 这 些 新 型 网 络 媒体 包含 大 量 针 对 新 闻 时 事 、 
政策 法 规 、 消 费 产品 等 话题 的 主观 评论 文本 〈 称 为 情感 文本 )， 充 分 反映 了 用 户 个 体 的 观 
点 、 情 感 、 态 度 和 情绪 等 重要 信息 。 


研究 如 何 利用 计算 机 对 社交 媒体 文本 进行 自动 情感 分 析 、 挖 掘 和 管理 ， 对 于 国家 、 
政府 、 企 业 和 个 人 , 都 具有 极其 重要 的 实际 意义 。 国 家 安全 机 构 需要 实时 把 控 网 络 信息 
内 容 ， 识 别 是 否 存在 反动 、 诈 骗 、 不 良 信息 传播 的 可 能 性 ， 以 便 及 时 防范 、 引 导 和 管理 ， 
确保 网 络 安全 ; 政府 管理 部 门 需要 及 时 了 解 民众 意向 ， 制定 和 改进 政策 法 规 , 维护 和 保 
障 社会 稳定 ; 企业 单位 需要 根据 网 络 信息 快 速 了 解 用 户 对 产品 的 意见 、 评 论 和 建议 , 及 
时 改进 产品 性 能 ,提高 售后 服务 质量 , 或 者 实现 精准 营销 ; 网 民 个 体 在 选 购 产品 时 可 以 
准确 了 解 大 众 用 户 对 于 产品 的 综合 评价 、 优 缺点 介绍 和 注意 事项 等 ,以 便 做 出 适合 自己 
的 选择 和 决策 。 


情感 分 析 和 观点 挖掘 (sentiment analysis and opinion mining) 是 文本 数据 挖掘 领 
域 的 一 个 重要 方向 , 其 主要 任务 是 对 文本 中 的 主观 信息 (如 观点 、 情感 、 评价、 态度 、 情 
绪 等 ) 进行 提取 、 分析 、 处 理 、 归 纳 和 推理 。 情 感 分 析 的 研究 起 源 于 21 世纪 初期 , 目前 
已 经 成 为 自然 语言 处 理 、 机 器 学 习 等 多 领域 交叉 关注 的 一 个 研究 热点 。 在 相关 领域 很 多 
质 级 国际 学 术 会 议 上 (如 ACL、 IJCAI, AAAI, SIGIR, CIKM, WWW, KDD 等 ) RK 
了 大 量 的 研究 论文 。 同 时 ，ACL 等 国际 权威 机 构 还 开展 了 针对 文本 情感 分 析 及 其 相关 任 
务 的 评测 竞赛 , 如 TREC、NTCIR、SemEval、SIGHAN 等 。 中 国 中 文 信息 学 会 和 中 国 
计算 机 学 会 中 文 信息 技术 专业 委员 会 也 相继 举办 了 COAE、NLPCC 等 一 系列 针对 中 文 
情感 分 析 和 观点 挖掘 的 技术 评测 ， 有 效 推动 了 国内 情感 分 析 研 究 的 发 展 。 
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早期 的 情感 分 类 研究 主要 基于 规则 方法 。[Turney, 2002] 提出 一 种 PMLIR 方法 识 
别 文本 中 词语 (或 语 块 ) 的 倾向 性 ,并 将 这 些 词语 的 极 性 进行 累加 ， 最 后 得 到 整个 文本 
的 倾向 性 。[Pang et al., 2002] 首先 将 机 器 学 习 模 型 引入 到 电影 评论 的 情感 分 类 任务 中 
比较 了 三 种 经 典 的 分 类 算法 (朴素 贝 叶 斯 模型 、 最 大 炉 模 型 和 支持 向 量 机 )。 该 工作 葛 
定 了 基于 机 器 学 习 的 情感 分 类 研究 的 基础 。 但 是 , 传统 的 统计 机 器 学 习 方法 利用 词 袋 模 
型 (BOW) 进行 文本 表示 , 而 BOW 模型 存在 明显 的 缺点 , 打 乱 了 文本 的 原始 结构 ， 丢 
失 了 词 序 信息 、 句法 结构 信息 和 部 分 语义 信息 。 

在 随后 的 研究 中 , 情感 分 析 技 术 自 然 分 流 成 上 述 两 类 , 即 基于 规则 (情感 词典 ) 的 方 
法 和 基于 统计 学 习 的 方法 。 前 者 根据 情感 词典 所 提供 的 词 的 情感 倾向 性 信息 , 结合 语言 
知识 和 统计 信息 , 进行 不 同 粒度 下 的 文本 情感 分 析 ; 后 一 种 方法 主要 研究 如 何在 文本 表 
示 层 面 寻找 更 加 有 效 的 情感 特征 ， 以 及 如 何在 机 器 学 习 模型 中 合理 地 使 用 这 些 特征 。 主 
要 特征 包含 : 词 序 及 其 组 合 、 词类、 高 阶 ? 元 语法 、 句 法 结构 信息 等 。 虽 然 情 感 分 类 中 的 
统计 机 器 学 习 方 法 沿袭 了 传统 基于 主题 的 文本 分 类 模型 的 框架 , 但 是 存在 一 些 特殊 问题 
需要 单独 处 理 ， 如 情感 极 性 的 转移 和 领域 适应 问题 等 。 围 绕 不 同 的 机 器 学 习 任务 ,还 出 
现 了 半 监 督 情感 分 类 、 类 别 不 平衡 情感 分 类 和 跨 语 言情 感 分 类 等 相关 研究 。 同 时 ， 除 了 
文档 或 句子 级 别 情感 分 类 研究 以 外 , 还 衍生 出 了 包括 属性 级 别 的 情感 信息 抽取 和 摘要 、 
字 或 短语 级 别 的 情感 分 类 、 情 感 词典 构建 等 更 多 细 化 的 情感 分 析 任务 。 

近年 来 情感 分 析 研 究 取 得 了 多 方面 的 进展 ， 也 遇 到 了 一 些 新 的 问题 。 一 方面 ,以 
Twitter 和 微 博 为 代表 的 社交 媒体 ,以 其 语言 简短 、 形 式 灵 活 、 话 题 广泛 、 更 新 速度 快 等 
特点 , 给 传统 的 情感 分 析 研 究 带 来 了 新 的 挑战 ; 另 一 方面 , 情感 分 析 任 务 进一步 出 现 了 
微 博 情绪 分 类 、 谣言 检测 、 立 场 分 析 等 一 系列 新 的 任务 ; 还 有 , 以 人 工 神 经 网 络 为 代表 的 
深度 学 习 方 法 逐渐 被 应 用 到 了 情感 分 析 诸 多 任务 中 , 并 取得 了 较 大 的 成 功 。 

本 章 以 情感 分 析 和 观点 挖掘 任务 为 主线 , 兼顾 介绍 各 项 任务 的 传统 方法 和 近年 来 的 
最 新 进展 ， 以 及 情感 分 析 中 的 特殊 问题 及 其 面临 的 挑战 。 


7.2 ”情感 分 析 任务 类 型 


以 下 分 别 从 分 析 目 标 和 分 析 粒 度 两 个 角度 , 介绍 情感 分 析 任 务 的 分 类 。 


7.2.1 ” 按 目 标 形式 划分 


文本 情感 分 类 简称 情感 分 类 (sentiment classification) ,是 情感 分 析 的 核心 内 容 之 
一 ， 它 可 以 看 作 一 类 特殊 的 文本 分 类 问题 。 传 统 的 文本 分 类 主要 指 对 文本 内 容 按 照 主题 
进行 分 类 , 而 情感 文本 分 类 任务 则 是 对 包含 主观 信息 的 文本 按照 情感 倾向 性 进行 分 类 。 

目前 的 情感 文本 分 类 研究 最 多 的 是 极 性 分 类 (polarity classification), Bat MW 
EDX, 即 判断 一 篇 文档 或 者 一 个 句子 所 包含 的 情感 是 “好 ”(thumbs up) 还 是 “ 坏 ” 
(thumbs down)。“ 好 ”和 “ 坏 ” 被 形象 地 看 作 是 襄 义 和 贬义 的 两 个 极 性 。 褒 贬 分 类 有 一 
个 前 提 ， 就 是 文本 中 所 包含 的 内 容 必 须 是 主观 信息 。 对 于 只 有 客观 信息 (如 一 个 人 的 身 
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高 、 体重 , 一 个 事件 的 发 生 时 间 和 地 点 等 ) 的 文本 来 进行 情感 分 析 是 没有 意义 的 。 在 情感 
分 析 早期 研究 中 ,有 一 部 分 工作 专门 研究 文本 的 主客 观 分 类 (或 称 为 主观 性 检测 )。 主 客 
观 分 类 虽然 有 别 于 襄 贬 分 类 , 但 是 它们 的 任务 非常 相似 , 都 属于 一 个 两 类 分 类 问题 , 不 
过 它们 具有 不 同 的 类 别 标签 , 前 者 是 主观 或 客观 ,而 后 者 是 襄 或 贬 两 种 态度 。[Wiebe et 
al., 2004] 对 基于 不 同方 法 和 特征 的 主观 性 检测 方法 做 了 详细 的 综述 。 

在 褒贬 两 类 极 性 分 类 之 外 ,常常 还 考虑 一 类 中 性 情感 ， 从 而 扩展 出 了 “ 襄 - 贬 - 
中 (Positive-Negative-Neutral) ”三 类 情感 分 类 问题 。 中 性 情感 文本 又 包含 两 种 情况 : 一 
种 是 不 包含 主观 情感 的 客观 文本 , 另 一 种 是 褒贬 情感 混合 的 文本 。 此 外 ,还 存在 一 些 
分 类 粒度 更 细 的 情感 分 析 任 务 ， 如 按照 评价 等 级 (如 1 星 ~5 星 ) 的 情感 分 类 、 基 于 
观点 强度 (0~100%) 的 情感 回归 、 基 于 情绪 CG OR. HR) 等 的 情绪 分 类 (emotion 
classification) ,以 及 按照 立场 (支持 、 反 对 或 无 关 ) 的 立场 分 类 (stance classification) 等 。 


7.2.2 ” 按 分 析 粒 度 划分 


根据 分 析 粒 度 的 不 同 , 文本 情感 分 析 任 务 又 可 以 分 成 : 文档 级 、 句子 级 、 词语 级 和 属 


1. 文档 级 情感 分 析 


继承 主题 文本 分 类 研究 的 传统 , 情感 文本 分 类 在 初始 研究 阶段 都 集中 在 针对 整 篇 文 
档 的 分 类 上 ,或 者 说 从 整体 上 判断 一 个 文档 所 表达 的 观点 和 态度 。 

文档 级 情感 分 析 任务 定义 为 : 给 定 文档 d (d 可 能 包含 多 个 句子 , 甚至 多 个 段落 ), 决 
定 整 个 d 的 情感 极 性 o(d)。 如 图 7.1 所 示 , 给 定 一 个 包含 三 个 段落 的 书评 文本 , 文档 级 
情感 分 析 任务 的 目标 是 从 整个 文档 级 别 识别 作者 对 于 小 说 《平凡 的 世界 》 的 评价 。 


wow 一 个 时 代 的 远 去 一 读 《平凡 的 世界 》 有 感 

留言 者 qdjacky007 于 2010 年 3 月 2 日 

版 本 :平装 已 确认 购买 

最 近 又 读 了 一 遍 平 凡 的 世界 ， 那 个 令 人 温暖 无 比 的 双 水 村 。 那 写 令 人 魂 牵 梦 绕 的 任务 。 孙 少 安 孙 少 平 BRE Bi 
叶 。 温 星 的 乡土 气息 ， 熟 悉 的 农村 场景 ， 只 有 在 农村 和 里 呆 过 ， 并 且 深 爱 这 简 士 地 的 人 才能 理解 他 的 翡 欢 高 合 。 


HOF 孙 少 安 曾经 莹 舞 了 一 代 人 ， 他 们 的 精神 及 其 形象 营 苟 温暖 了 相同 境 双 的 一 代 人 。 但 是 这 个 时 代 正 慢 慢 高 我 
们 远 去 。 那 我 们 既 熟 悉 又 陌生 的 世界 。 那 是 一 个 物质 相对 贫 将 但 精神 绝对 富足 的 社会 。 她 们 贫 瘤 的 物质 世界 曾 让 我 
们 无 比 自 豪 现在 的 富足 ， 但 他 们 丰富 的 内 心 世界 令 我 们 货 将 的 内 心 羡 莫不 已 。 


时 代 在 深刻 地 影响 我 们 ,但 是 有 些 东 西 我 们 应 该 永远 不 应 抛弃 。 那 些 曾 经 代表 一 个 时 代 的 典范 应 该 让 我 们 铭刻 终 
+, TARE. SHANA. SHREW TRNSSSRSH, RESP WRASSE, LE 
FIBRO R! 


图 7.1 文档 级 情感 分 类 任务 示例 


初期 有 代表 性 的 研究 工作 包括 [Turney, 2002] 和 [Pang et al., 2002]。 除 了 书籍 、 电 
影 的 文档 级 评论 , 互联 网 上 还 有 很 多 产品 评论 文本 , 如 电子 产品 、 宾 馆 、 餐 馆 评论 等 , 对 
这 些 评论 文本 的 整体 情感 进行 的 分 类 都 属于 文档 级 情感 文本 分 析 任 务 。 


120 BTE ”情感 分 析 与 观点 挖掘 


2. 句子 级 情感 分 析 


整 篇 文档 通常 包含 多 个 话题 ,不同 的 话题 所 牵涉 的 观点 、 态 度 等 主观 性 信息 可 能 有 
差异 。 因 此 , 将 文档 作为 一 个 整体 , 笼统 地 进行 情感 分 析 存 在 一 定 的 局 限 性 , 分 析 的 粒度 
也 比较 粗糙 。 相 比 而 言 , 句子 涉及 的 话题 往往 比较 单一 , 而 且 很 多 自然 语言 处 理 技术 都 
以 句子 为 处 理 单元 , 句子 层面 的 情感 分 析 也 更 容易 融入 更 多 的 自然 语言 处 理 手段 。 所 以 ， 
从 实用 意义 和 可 行 性 角度 , 句子 级 别 的 情感 分 析 比 文档 级 别 的 情感 分 析 更 加 合 

句子 级 情感 分 析 可 以 定义 为 : 给 定 句子 s RE s 的 情感 极 性 o(s)。 如 图 7.2 所 示 ， 
给 定 一 个 评论 句 , 句子 级 情感 分 析 任 务 的 目标 就 是 识别 该 句子 所 表达 的 情感 。 

Sevier vie 经 典 
留言 者 dy0309 于 2005 年 1 月 9 日 


版 本 : BE 
这 是 一 部 让 你 百 读 不 厌 的 书 ， 这 是 一 部 总 能 让 你 感动 的 书 ， 这 是 一 部 必 将 载 入 历史 的 书 ， 让 我 们 记 住 路 过 和 他 永远 的 《平凡 的 世界 》 ! 
* 回应 这 条 评论 对 您 有 用 吗 ? | 是 SB | 报告 滥用 情况 


图 7.2 句子 级 情感 分 析 任 务 示例 


早期 的 句子 级 情感 分 析 工 作 包 括 句 子 的 主客 观 性 分 类 。 监 督学 习 方法 类 似 于 文 
本 分 类 ,基于 词汇 、n-grams、 词 性 、 词 序 等 特征 进行 文本 表示 , 然后 利用 朴素 贝 叶 斯 
模型 、 最 大 焙 模 型 等 分 类 器 进行 文本 主客 观 性 分 类 [Wiebe et al., 1999; Wiebe et al., 
2004]. [Pang and Lee, 2004] 重点 研究 了 电影 评论 句子 的 情感 分 类 问题 。 他 们 基于 图 论 
建 模 ， 采 用 最 小 割 集 的 方法 抽取 代表 整 篇 文档 情感 的 句子 集合 ， 从 而 达到 分 类 的 目的 。 
句子 级 情感 分 类 的 一 个 缺点 是 , 基于 监督 学 习 方 法 建立 情感 分 类 器 时 句子 级 情感 标签 需 
要 进行 人 工 标 注 , 而 文档 级 情感 标签 往往 可 以 依据 自然 标注 信息 (如 评论 的 星 级 ) 确定 。 

此 外 ， 随 着 近年 来 社交 媒体 的 发 展 ， 出现 了 一 类 针对 社交 网 络 文本 (如 Twitter、 微 
博 、 微 信 等 ) 的 消息 级 情感 分 析 任 务 。 这 类 消息 级 文本 通常 受 长 度 的 限制 , 篇 幅 较 短 , 包 
含 的 句子 数目 也 不 多 , 通常 称 为 “短文 本 ”。 在 不 考虑 社交 网 络 结构 的 情况 下 , 这 一 类 情 
感 分 析 任 务 都 可 以 作为 句子 级 情感 分 析 或 者 短文 档 级 情感 分 析 进 行 处 理 。 


3. 词语 级 情感 分 析 及 情感 词典 构建 


除了 文档 和 句子 级 的 情感 分 析 , 还 有 很 多 研究 关注 于 更 小 粒度 的 语言 单位 的 情感 分 
析 处 理 。 词 语 和 短语 通常 被 认为 是 情感 表达 的 最 小 语言 单元 。 为 了 方便 描述 , 我 们 将 词 
语 和 短语 级 的 情感 分 析 统 称 为 词语 级 情感 分 析 。 词语 级 情感 分 析 定 义 为 : 给 定 词语 或 短 
W p, 决定 p 的 情感 极 性 o(p)。 对 于 给 定语 料 , 词语 级 情感 分 析 与 情感 词典 构建 任务 是 基 
本 等 价 的 。 

目前 大 部 分 的 通用 情感 词典 都 是 通过 人 工 构建 的 。 基 于 人 工 构建 的 情感 词典 虽然 具 
备 较 好 的 通用 性 , 但 是 在 实际 应 用 中 难以 获 盖 来 自 不 同 领域 的 情感 词汇 ， 领 域 适应 性 较 
差 。 同 时 ,人 工 情感 词典 构建 需要 耗费 大 量 的 人 力 和 物力 。 因 此 , 学 术 界 更 多 地 聚焦 于 情 
感 词典 的 自动 构建 方法 研究 , 这些 方法 主要 分 为 三 类 : 基于 知识 库 的 方法 、 基 于 语料库 
的 方法 以 及 知识 库 和 语料库 相 结合 的 方法 。 
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4. 属性 级 情感 分 析 


属性 级 情感 分 析 (aspect-level sentiment analysis) 是 从 文本 中 挖掘 评价 对 象 实体 的 
属性 ， 并 对 其 进行 情感 分 析 的 任务 。 文档 级 和 句子 级 情感 分 析 只 识别 文档 或 句子 的 整体 
情感 ,而 不 涉及 评论 的 具体 属性 以 及 针对 该 属性 的 情感 ， 故 而 在 分 析 粒 度 上 有 所 欠缺 。 
属性 级 情感 分 析 则 可 以 理解 为 对 文本 中 的 评价 对 象 (属性 ) 进行 抽取 ,并 确定 针对 该 属 
性 的 情感 倾向 性 的 过 程 。 

表 7.1 给 出 了 一 个 属性 级 情感 分 析 的 示例 , 针对 输入 评论 文本 , 输出 该 评论 所 包含 
的 (9,s) 二 元 组 序列 , 其 中 g 表示 评价 对 象 Carget), s 表示 情感 (sentiment)。 同 时 , 针 
对 大 量 的 评论 文本 ,可 以 根据 属性 级 情感 分 析 的 结果 给 出 对 整个 评价 对 象 的 观点 摘要 。 
图 7.3 给 出 的 是 一 个 基于 属性 级 情感 分 析 的 商品 观点 摘要 示例 。 
表 7.1 属性 级 情感 分 析 任务 示例 
评论 文本 ”手机 外 观 很 好 ,速度 很 快 ， 照相 也 不 错 ， 就 是 电池 容量 有 点 小 ， 续 航 时 间 一 般 。 
分 析 结 果 { ( 外观 ,正面 ) GRA, EG), ( 拍照 , 正面 ) ( 电池 容量 ,负面 ) ( 续航 时 间 ， 负 面 ) } 


商品 详情 “| 包装 和 参数 累计 评价 1624 月 成 交 记 录 1007 件 给 我 推荐 


SEE Pee 2 COMME CS ) [RETRED ) REBUS ) [FRMO | 

4.8, HEL OME ONE COME CNET ON 
Bas) | [ 通话 质量 一 般 (8) | | 外 讽 一 般 (8) | | 电池 一 般 (5) | | RRM) 
THERETO) | [FETA ) | 包装 一般 (2) | [ 配件 一 名 (1) 
ENERO 

E 查看 追加 (65) Q 有 内 容 评价 (10 字 及 以 上 ) H ana || Amia + || RRA + 


图 7.3 基于 属性 级 情感 分 析 的 商品 观点 摘要 示例 


在 早期 的 研究 工作 中 (如 [Hu and Liu, 2004]), 属性 级 情感 分 析 又 称 为 基于 特征 
的 观点 挖掘 (feature based opinion mining)。 后 期 的 工作 (如 [Liu, 2012; Liu, 2015]) 
等 进一步 将 观点 表示 为 一 个 四 元 组 (g, s,h,t), 其 中 g 表示 评论 对 象 (target)，s 表示 
THX (sentiment), h 表示 观点 持 有 者 (opinion holder), t 表示 时 间 (time)。 评 论 对 
象 通常 又 包含 实体 (entity) 及 其 属性 Cattribute)， 因 此 上 述 四 元 组 可 以 转化 为 五 元 组 
(e,a, s,h,t)。 属性 级 情感 分 析 相 应 地 定义 为 上 述 多 元 组 (四 元 组 或 五 元 组 ) 的 抽取 与 识 
别 过 程 。 


7.3 ”文档 或 句子 级 情感 分 析 方 法 


除了 句子 和 文档 的 表示 方法 略 有 不 同 以 外 , 在 任务 目标 和 分 类 方法 上 , 文档 级 和 名 
子 级 情感 分 析 方法 (特别 是 基于 传统 机 器 学 习 的 方法 ) 是 类 似 的 。 因 此 , 本 节 将 文档 级 和 
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句子 级 的 情感 分 析 方 法 合并 介绍 。 


7.3.1 ”基于 规则 的 无 监督 情感 分 类 


基于 规则 的 方法 本 质 上 是 一 种 确定 性 的 演绎 推理 方法 , 它 的 优点 在 于 能 够 根据 上 下 
文 对 确定 性 事件 进行 定性 的 描述 , 并 能 够 充分 利用 现 有 的 语言 学 知识 。 

[Das and Chen, 2007] 通过 使 用 人 工 构造 的 情感 词 字典 识别 出 其 中 的 倾向 性 词语 ， 
并 将 这 些 倾 向 词语 的 极 性 〈 正 面 为 +1， 负 面 为 -1, 中 立 为 0) 进行 累加 ， 得 到 整个 文本 
的 极 性 , 据 此 评价 整个 文本 的 情感 类 别 。 

[Turney, 2002] 利用 PMI-TR 方法 计算 文本 中 出 现 的 符合 规则 的 短语 的 情感 倾向 性 ， 
通过 对 文本 中 所 有 短语 的 情感 倾向 性 的 平均 值 的 正 负 , 判断 文本 描述 的 对 象 是 否 值得 推 
荐 。 这 种 方法 不 需要 使 用 人 工 标注 的 语 料 进行 模型 训练 。 

PMLIR 方法 由 如 下 三 步 构成 : 

第 一 步 : 根据 事先 定义 的 模板 抽取 包含 情感 色彩 的 候选 词汇 和 短语 , 主要 是 形容 词 
和 副词 及 其 短语 。 表 7.2 是 其 预定 义 的 从 评论 文本 中 抽取 候选 短语 的 词性 模板 。 

表 7.2 从 评论 中 抽取 候选 短语 的 词性 模板 


第 一 个 词 第 二 个 词 第 三 个 词 〈( 不 抽取 ) 
形容 词 (JJ) 名 词 (NN, NNS) 任意 
副词 (RB, RBR, RBS) 形容 词 (JJ) 非 名 词 (NN, NNS) 
形容 词 (JJ) 形容 词 (JJ) 非 名 词 (NN, NNS) 
名 词 (NN, NNS) 形容 词 (JJ) 非 名 词 
副词 (RB, RBR, RBS) 动词 (VB, VBD, VBN, VBG) 任意 


第 二 步 : 计算 候选 短语 的 语义 倾向 (semantic orientation, SO) 值 。 分 别 以 “excellent” 
和 “poor” 为 褒贬 两 类 的 种 子 词 , 计算 候选 短语 与 “excellent” 和 “poor” 的 PMI 差 值 作 
为 语义 倾向 值 。 候 选 短 语 的 语义 倾向 值 计 算 公式 如 下 : 
SO (phrase) = PMI (phrase, “excellent” ) — PMI (phrase, “poor” ) (7.1) 
两 个 词 之 间 的 点 式 互 信息 计算 如 下 : 


p(w, we) 
lei u (7.2) 
HEF, p(w, wa) 是 词 或 短语 wy 和 wy 在 评论 文本 中 同 现 的 概率 。PMI(wa,ws) 从 数据 同 
现 的 角度 度量 了 wi 和 wa 之 间 的 相似 性 。 

PMLIR 方法 基于 AltaVista 搜索 引擎 1 (该 搜索 引擎 当时 支持 NEAR 操作 符 ) 估计 
PMI 和 SO 值 : 


PMI (wi,w») = log 


1 hits (phrase NEAR“excellent”) - hits (“poor”) 
o, 
8 hits (phrase NEAR “poor” ) - hits (“excellent”) 


SO (phrase) (7.3) 


1https://en.wikipedia.org/wiki/AltaVista 
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其 中 , NEAR 操作 符 表 示 在 窗口 长 度 内 两 词 同 现 , hits(query) 表示 搜索 引擎 返回 的 查询 
数 , 即 两 词 同 现 的 次 数 。 

第 三 步 : 对 评论 文本 中 的 候选 短语 SO 值 进行 累加 , 根据 最 终 SO 值 的 正 负 判别 情 
感 类 别 。 

除了 PMLIR 方法 , 还 有 很 多 工作 直接 基于 情感 词典 获取 候选 词 或 短语 的 情感 极 性 
及 其 强度 , 然后 将 全 文中 情感 词 或 短语 的 情感 值 累加 得 到 文档 的 情感 。 我 们 将 这 类 方法 
称 为 基于 情感 词典 的 无 监督 情感 分 类 方法 。[Taboada et al., 2011] 进一步 完善 了 这 类 方 
法 , 他 们 没有 简单 地 对 文档 中 候选 词语 的 SO 值 进 行 累 加 ， 而 是 考虑 了 文档 中 的 特殊 语 
言 结构 ( 如 否定 、 强 化 、 削 弱 、 虚 拟 等 ), 设计 了 更 加 合理 的 根据 情感 词 的 SO 值 计算 文 
档 情感 的 规则 。 


7.3.2 ”基于 传统 机 器 学 习 的 监督 情感 分 类 


规则 方法 的 优点 在 于 使 用 方便 , 不 依赖 于 人 工 标 注 的 语 料 集 。 但 是 , 其 性 能 极 大 地 
受 限于 情感 词典 的 质量 、 规则 的 合理 程度 和 和 获 盖 范围 。 近 20 年 来 , 统计 机 器 学 习 方 法 在 
人 工 智能 、 自 然 语 言 处 理 和 数据 挖掘 等 领域 迅速 兴起 ,并 占据 了 主流 地 位 。 它 是 一 种 经 
验 主 义 方 法 ， 其 优势 在 于 其 知识 是 基于 大 规模 语 料 分 析 获 得 的 ， 对 语言 处 理 提供 了 比较 
客观 的 数据 依据 和 可 靠 的 质量 保证 。 


1. 早期 的 研究 


早期 的 工作 沿袭 了 基于 机 器 学 习 的 文本 分 类 研究 框架 ,利用 词 袋 模型 进行 文本 表 
示 , 然后 进行 分 类 器 设计 , 评估 方法 也 与 4.6 节 所 述 的 文本 分 类 评估 方法 相同 。 

[Pang et al., 2002] 首先 将 统计 机 器 学 习 方法 引入 到 电影 评论 的 蛮 贬 分 类 任务 中 。 他 
们 利用 人 工 标注 了 褒贬 类 别 的 语 料 训 练 有 监督 的 分 类 器 模型 ,在 分 类 算法 层面 比较 了 三 
种 不 同 的 分 类 算法 〈 朴 素 贝 叶 斯 模型 、 最 大 粒 模 型 和 支持 向 量 机 )。 在 特征 工程 层面 , 讨 
WT n 元 语法 Cunigrams、bigrams)、 词 性 (POS) 和 位 置 特征 (position)， 并 比较 了 词 
频 和 布尔 值 两 种 特征 权重 。 表 7.3 给 出 的 是 在 电影 评论 (movie review) 语 料 上 三 种 分 类 
器 、 八 种 特征 的 实验 结果 。 


表 7.3 三 种 分 类 器 、 八 种 特征 在 影评 语 料 上 的 情感 分 类 结果 [Pang et al., 2002] 


特征 特征 数 特征 权重 NB ME SVM 
unigrams 16165 词 频 78.7 N/A 72.8 
unigrams 16165 布尔 值 81.0 80.4 82.9 
unigrams+bigrams 32330 布尔 值 80.6 80.8 82.7 
bigrams 16165 布尔 值 TS 77.4 771 
unigrams+POS 16695 布尔 值 81.5 80.4 81.9 
Adjectives 2633 布尔 值 77.0 TT 75.1 
Top 2633 unigrams 2633 布尔 值 80.3 81.0 81.4 


unigrams 十 position 22430 布尔 值 81.0 80.1 81.6 
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[Pang et al., 2002] 报 告 机 器 学 习 方 法 的 分 类 正确 率 要 高 于 人 工 判断 的 结果 !， 其 中 
SVM 最 高 , ME 次 之 , NB 最 低 , 不 过 这 三 种 分 类 器 的 性 能 差别 并 不 大 。 但是, 这些 分 类 
算法 获得 的 情感 分 类 性 能 不 如 其 在 传统 的 主题 文本 分 类 任务 上 的 性 能 。 同 时, 单独 使 用 
unigrams 的 性 能 最 好 ， 且 布尔 值 特征 权重 的 性 能 略 好 于 词 频 权重 。 后 续 的 研究 表明 , 分 
类 器 的 性 能 具有 领域 依赖 性 , 对 于 不 同 的 领域 而 言 , 没有 一 个 分 类 器 能 够 保持 始终 最 优 
[Xia et al., 2011]. 

随后 出 现 了 大 量 的 基于 机 器 学 习 的 情感 分 类 研究 工作 。 研究 者 们 一 方面 基于 传统 的 
机 器 学 习 算法 ， 从 特征 工程 的 角度 设计 适合 情感 分 析 任务 的 文本 表示 方法 ; 另 一 方面 ， 
探索 新 的 机 器 学 习 算法 在 情感 分 析 任 务 中 的 应 用 。 尤 其 是 近年 来 随 着 深度 学 习 的 兴起 ， 
出 现 了 大 量 基于 深度 神经 网 络 的 情感 分 析 方 法 ,本 书 将 在 7.3.3 节 对 这 些 方法 进行 专门 
的 介绍 。 


2. 深层 次 语言 学 特征 


基于 机 器 学 习 的 情感 文本 分 类 方法 继承 了 主题 文本 分 类 方法 的 思路 ， 以 向 量 空间 模 
型 作为 文本 表示 , 基于 线性 分 类 算法 进行 分 类 。 虽然 [Pang et al., 2002] 指出 机 器 学 习 算 
法 的 性 能 高 于 人 工 评判 的 结果 , 但 是 仍 不 如 在 主题 文本 分 类 任务 下 的 效果 显著 。 究 其 原 
因 , 主要 在 于 向 量 空间 模型 打破 了 文本 的 原始 结构 ,忽略 了 词 序 信 息 , 破坏 了 句法 结构 ， 
丢失 了 部 分 语义 信息 , 而 这 些 信息 对 于 情感 分 类 往往 具有 举足轻重 的 作用 。 

因此 ,很 多 研究 者 立足 于 挖掘 文本 中 更 多 能 够 有 效 表达 情感 的 信息 作为 新 的 特征 ， 
如 位 置信 息 [Pang et al., 2002; Kim and Hovy, 2004]、 词 性 信息 [Mullen and Collier, 
2004; Whitelaw et al., 2005]、 词 序 及 其 组 合 信息 [Dave et al., 2003; Snyder and Barzilay, 
2007]. 高 阶 n 元 语法 [Pang et al., 2002; Dave et al., 2003] 和 句法 结构 特征 [Dave et al., 
2003; Gamon, 2004; Ng et al., 2006; Kennedy and Inkpen, 2006] 等 。 

在 文献 [Pang et al., 2002; Kim and Hovy, 2004] 中 , 位 置信 息 作为 词 的 辅助 特征 被 
用 于 生成 特征 向 量 , 这 种 潜在 的 信息 可 以 补充 单纯 的 词汇 所 包含 的 信息 。 

词性 信息 对 辅助 挖掘 文本 的 深层 次 信息 具有 重要 作用 , 在 早期 的 主观 语义 预测 研究 
中 , 就 是 利用 了 形容 词 作为 特征 [Hatzivassiloglou and Mckeown, 1997]. 结果 表明 , 语句 
的 主观 性 与 形容 词 有 很 高 的 相关 性 。[Mullen and Collier, 2004; Whitelaw et al., 2005] 
认为 , 形容词 是 情感 分 类 的 重要 特征 , 但 这 并 不 意味 着 其 他 词性 对 于 情感 分 类 没有 作用 。 
研究 者 们 指出 ， 有 一 些 名 词 和 动词 往往 也 包含 了 重要 的 情感 信息 (如 名 词 “ 天 才 ”、 动 
词 “ 推 荐 ” E). [Pang et al., 2002] 在 电影 评论 语 料 上 做 了 对 比 实验 ,结果 显示 ， 只 用 形 
容 词 特征 的 系统 分 类 结果 明显 低 于 使 用 相同 数量 高 频 词 的 分 类 结果 。 

EF n 元 语法 的 文本 表示 在 自然 语言 处 理 中 有 着 重要 作用 , [Pang et al., 2002] 的 实 
验 表明 单独 使 用 unigrams 性 能 高 于 bigrams。[Dave et al., 2003] 的 实验 表明 , 在 某 些 情 
况 下 基于 二 元 和 三 元 语法 的 方法 要 好 于 单独 使 用 一 元 语法 的 系统 。 因 此 ,实践 中 高 阶 的 
n 元 语法 特征 往往 作为 一 元 语法 特征 的 补充 , 而 不 是 单独 使 用 。 


+ 原文 中 这 样 写 的 , 但 没有 报告 人 工 的 结果 。 
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BA n 元 语法 能 够 体现 部 分 词 序 信 息 (特别 是 相 邻 词 关 系 ), 但 是 , 它 不 能 捕捉 句子 
中 词 和 词 之 间 的 长 距离 依赖 关系 。 要 捕捉 这 种 关系 信息 , 就 要 借助 于 更 深层 次 的 语言 
析 工 具 。 

一 种 简单 的 依存 关系 抽取 方法 是 抽取 相互 依存 的 词 对 作为 特征 , 如 图 3.3 所 示 的 依 
存 关系 树 示例 中 的 “推荐 电影 ”。 这样 一 来 , “推荐 ”和 “电影 ”这 种 具有 长 距离 的 依存 
关系 就 可 以 捕捉 到 了 。 而 这 些 依存 词 对 包含 了 一 部 分 的 句法 结构 信息 甚至 语义 信息 ,可 
能 对 情感 文本 分 类 起 到 帮助 作用 。 但 是 , 在 篇 章 级 别 的 情感 分 类 中 引入 依存 词 对 信息 是 
否 有 效 , 文献 [Dave et al., 2003; Ng et al., 2006] 和 [Gamon, 2004; Matsumoto et al., 
2005] 有 着 不 同 的 结论 。 [Dave et al., 2003] 认为 , 加 入 “形容 词 - 名 词 ”的 依存 关系 对 传统 
的 词 袋 模型 不 能 提供 有 用 的 信息 ，[Ng et al., 2006] 除了 使 用 “形容 词 -名 词 ” 依存 关系 ， 
还 将 主 谓 关系 和 动 宾 关 系 词 作为 一 元 、 二 元 和 三 元 语法 特征 的 补充 ,但 是 并 没有 获得 性 
能 的 提高 。 尽管 [Gamon, 2004] 利用 短语 结构 树 提取 的 句法 关系 特征 作为 补充 , 提高 了 
系统 的 分 类 性 能 , 但 是 单独 使 用 这 些 语言 学 特征 的 性 能 仍然 低 于 简单 特征 的 分 类 效果 。 
另外 , 也 有 工作 利用 句法 分 析 工具 解决 文本 中 的 语义 转折 、 语 义 增 强 和 语义 削弱 等 问题 
[Kennedy and Inkpen, 2006], 这 里 不 再 一 一 叙述 。 


3. 特征 权重 与 特征 选择 


在 传统 的 文本 分 类 中 , 特征 词 频 是 一 个 重要 信息 , 特征 的 权重 往往 利用 词 频 进行 计 
算 , 例如 词 频 (TF)、 词 频 - 倒 排 文档 频率 (TF-IDF) 等 。 但 是 在 情感 分 类 任务 中 , [Pang 
et al., 2002] 却 发 现 利 用 布尔 权重 能 取得 比 词 频 权重 更 好 的 结果 。 对 于 这 样 的 结果 , 一 种 
可 能 的 解释 是 对 于 主题 分 类 而 言 , 关键 词语 的 重复 包含 了 更 多 的 主题 信息 , 而 对 于 情感 
分 类 来 说 ,这 些 词语 重复 并 不 代表 其 包含 更 多 的 情感 信息 。 在 后 续 的 研究 中 布尔 权重 成 
为 文本 情感 分 类 使 用 最 为 广泛 的 特征 权重 方法 。 

特征 选择 和 特征 提取 的 基本 任务 是 将 原始 特征 转化 为 一 组 对 于 分 类 区 别 性 能 更 强 
的 特征 。 其 中 , 特征 选择 是 从 原始 特征 中 挑选 出 最 有 效 的 特征 以 达到 降 维 的 目的 , 特征 
提取 则 是 通过 空间 的 变换 将 原始 特征 空间 映射 为 新 的 特征 空间 , 一 般 都 是 高 维 空间 向 
低 维 空间 的 映射 。 特征 选择 适应 面 广 , 不 需要 额外 的 人 工 支 持 , 在 文本 分 类 任务 中 得 到 
了 广泛 的 使 用 , 主流 方法 包括 文档 频率 、 互 信息 、 信息 增 益 、 卡 方 统 计量 等 。[Cui et al., 
2006; Ng et al., 2006; Li et al., 2009a] 分 别 将 这 些 方 法 应 用 于 情感 分 类 任务 , 实验 证 明 
了 信息 增益 、 卡 方 统计 量 等 方法 的 有 效 性 。 


4. 模型 集成 


在 文本 情感 分 类 研究 中 ，[Aue and Gamon, 2005] 尝试 利用 集成 学 习 (组 合 分 类 
器 ) 方法 组 合 不 同 源 领域 的 训练 语 料 , 获得 了 分 类 性 能 的 提高 。 [Whitehead and Yaeger, 
2008] 将 SVM 作为 基 分 类 器 算法 , 利用 四 种 基于 特征 子 集 抽取 的 集成 学 习 方 法 进行 性 
能 测试 , 结果 显示 集成 学 习 方 法 能 够 提高 系统 的 性 能 。[Xia et al., 2011] 针对 文档 级 情感 
分 类 任务 , 考察 了 不 同 的 分 类 算法 、 不同 的 特征 表示 以 及 不 同 的 集成 策略 对 分 类 结果 的 
作用 , 对 集成 学 习 在 情感 分 类 中 的 有 效 性 进行 了 详细 的 对 比 实验 和 分 析 。 
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5. 层次 情感 分 类 模型 


[McDonald et al., 2007] 将 视角 从 传统 的 单一 粒度 的 情感 分 类 问题 转化 为 多 层次 粒 
度 的 分 类 问题 , 试图 利用 序列 模型 进行 统一 学 习 。 他们 关注 不 同 粒度 的 情感 之 间 的 关系 ， 
试图 利用 小 粒度 对 象 之 间 的 情感 信息 辅助 更 大 粒度 的 情感 分 类 。 代表 性 的 工作 是 , 把 句 
子 的 情感 分 类 与 篇 章 的 情感 分 类 放 到 统一 的 CRF 模型 下 , 在 进行 句子 标注 的 同时 利用 
篇 章 的 情感 标记 对 句子 的 标记 进行 校正 。[Mao and Lebanon, 2007] 把 文档 中 所 包含 的 
句子 情感 标记 看 作 是 一 个 情感 流 , 利用 CRF 模型 解决 讲 贬 强度 分 类 的 序列 回归 问题 。 


7.3.3 ”深度 神经 网 络 方法 


近年 来 , 以 人 工 神经 网 络 为 代表 的 深度 学 习 方法 因 其 强大 的 特征 自动 学 习 能 力 和 端 
到 端的 联合 建 模 架构 , 被 广泛 应 用 于 自然 语言 处 理 的 诸多 领域 , 在 情感 分 析 任 务 中 也 取 
得 很 大 的 成 功 。 本 书 4.5 节 已 经 对 常见 的 基于 神经 网 络 的 文本 分 类 方法 进行 了 介绍 。 铝 
子 或 文档 级 情感 文本 分 类 作为 一 种 特殊 的 文本 分 类 任务 , 4.5 节 所 述 的 方法 都 可 以 应 用 ， 
这 里 不 再 袭 述 。 本 节 着 重 介 绍 几 个 专门 针对 情感 文本 分 类 任务 的 深度 学 习 模型 。 


1. 基于 短语 结构 树 的 神经 网 络 模型 


在 7.3.2 节 我 们 提 到 , 句法 树 特征 对 于 情感 分 类 具有 重要 作用 。[Socher et al., 2011a] 
率先 提出 了 利用 句法 树 结构 信息 的 句子 递归 神经 网 络 建 模 方 法 。 图 7.4 (a) 是 针对 句子 
序列 的 循环 神经 网 络 建 模 示例 , 图 7.4(b) 则 给 出 了 针对 短语 结构 树 的 递归 神经 网 络 建 
模 示 例 。 


加 
kal 
1 2.5 
beie] Ad /® 
os 2.1 人 2.3 0.4 2.1 7 aan 
bs) Gl Gl Gs) Ge pl Ga Gl Gs) Ga 
the country of my birth the country of my birth 
(a) 循环 神经 网 络 建 模 (b) 递归 神经 网 络 建 模 


图 7.4 针对 句子 的 两 种 神经 网 络 建 模 方法 示例 


树 的 每 个 中 间 节 点 具有 两 个 子 节点 , 每 两 个 子 节点 结合 为 一 个 父 节点 , 子 节点 的 编 
码 拼接 后 经 过 线性 变换 和 非 线性 激活 得 到 父 节点 的 编码 。 令 cl € RI 和 cp € R? 分 别 表 
示 两 个 子 节点 的 编码 , p eR? 是 父 节点 的 编码 ,其 组 合 过程 可 以 表示 为 : 


(lale) z 


其 中 , W eR yA, BER? 为 偏 置 项 ，f( ) 为 激活 函数 。 
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得 到 的 父 节 点 编码 与 其 他 兄弟 节点 再 次 结合 产生 更 上 一 层 的 父 节 点 。 自 下 而 上 两 两 
组 合 , 最 终 得 到 整个 句子 和 所 有 中 间 短 语 的 表示 。 自 下 而 上 对 短语 结构 树 定义 的 拓扑 结 
构 递归 地 进行 前 向 运算 , 直至 整 棵 树 处 理 完毕 , 所 有 节点 共用 参数 W 和 b。 以 根 节点 的 
编码 作为 整个 句子 的 编码 。 句子 编码 接 Softmax 层 进 行 句子 分 类 。 

与 循环 神经 网 络 中 所 采用 的 BPTT 算法 类 似 , 递归 神经 网 络 采 用 沿 结构 反 向 传 
播 (back-propagation through structure, BPTS) 算法 进行 模型 训练 BPTT 算法 将 误 
差 沿 时 间 反 向 传播 , 而 BPTS 将 误差 从 根 节点 沿 网 络 结构 反 向 传播 至 各 子 节点 。 


2. 矩阵 向 量 递归 神经 网 络 


[Socher et al., 2012] 在 标准 的 递归 神经 网 络 基 础 上 提出 了 一 种 矩阵 向 量 递归 神经 网 络 
(matrix-vector recursive neural network, MV-RNN). MV-RNN 模型 结构 如 图 7.5 所 示 。 


Vector 


SS matrix 


图 7.5 和 矩阵 向 量 递归 神经 网 络 [Socher et al., 2012] 


图 7.5 中 树 的 每 一 节点 都 用 一 个 向 量 -矩阵 对 (a, A) 来 表示 , a cR 用 于 对 语义 建 
Hi, A e RE 用 于 对 相 邻 子 节点 的 修改 作用 进行 建 模 (如 单词 “very” 会 增强 “good” 
的 语义 , 而 “not” 则 会 反 转 “good” 的 语义 )。 假设 两 个 子 节点 的 表示 分 别 为: (a, A) Ail 
(b, B), 两 者 结合 得 到 父 节 点 表示 (p, P) 的 过 程 如 下 : 


(ele) : 


其 中 , W e R4 HAREE, f(-) 为 激活 函数 ，Ab 刻画 图 7.5 示例 中 very 对 good 
的 影响 。 

[Socher et al., 2012] 在 MR 数据 集 上 进行 了 两 类 情感 分 类 实验 , 获得 了 当时 最 优 的 
结果 , 实验 中 句子 的 短语 结构 树 使 用 Stanford Parser 获得 。MV-RNN 方法 的 缺点 在 于 ， 
需要 为 词 表 里 的 每 一 个 词 额 外 学 习 一 个 RO 和 矩阵， 大 大 增加 了 模型 的 参数 空间 。 


3. 递归 张 量 神经 网 络 


[Socher et al., 2013] 进 一 步 提 出 了 递归 张 量 神经 网 络 (recursive neural tensor net- 
work, RNTN) 模型 , 模型 原理 如 图 7.6 所 示 。 在 RNTN 模型 中 , 子 节点 a Mb 通过 以 
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下 方式 组 合成 父 节点 p: 


š a a 
p=y(euvea| 2 |+w|e|) (7.6) 
其 中 , VEA e R24x24xd 是 一 个 张 量 。 张 量 乘积 的 计算 公式 如 下 : 


h = [a,b] Vie | A | (7.7) 


he Ra， 其 中 hy 由 张 量 的 每 个 通道 VE 计算 得 到 : hi = fa, b] V | i | . 
张 量 层 切 片 ”标准 层 


a= 


图 7.6 递归 张 量 神经 网 络 示意 图 [Socher et al., 2013] 


p=f 


如 前 面 所 述 , MV-RNN 通过 为 每 个 词 额外 引入 一 个 矩阵 表示 对 两 个 子 节点 的 交互 
信息 进行 编码 , 参数 量 过 大 , 而 RNTN 是 通过 张 量 乘积 项 达到 这 一 目的 的 , 且 在 不 同 节 
点 上 共享 该 张 量 , 因此 增加 的 参数 量 仅 为 2d x d x do 

论文 [Socher et al., 2013] 同时 发 布 的 Stanford sentiment treebank (SST) 数据 集成 
为 之 后 的 句子 级 情感 分 析 研究 的 基准 数据 。 此 外 ,其 他 使 用 递归 神经 网 络 的 模型 还 包括 
[Irsoy and Cardie, 2014] 等 工作 。 


4. 基于 树 结 构 的 长 短 时 记忆 网 络 


循环 神经 网 络 针对 时 间 序 列 建立 神经 网 络 , 递归 神经 网 络 针 对 树 结构 建立 神经 
络 , 为 了 结合 两 种 网 络 的 优势 ，[Tai et al., 2015] 提出 了 基于 树 结构 的 长 短 时 记忆 
络 (tree-structured long short-term memory networks, Tree-LSTM), 使 得 循环 神经 
络 具 有 树 结构 建 模 的 能 力 , 基本 思路 如 图 7.7 所 示 。 


& 


ga 


图 7.7 LSTMs 45 Tree-LSTMs 
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具体 地 讲 , 论文 [Tai et al., 2015] 提出 了 两 种 Tree-LSTMs 变 体 : 
(1) Child-Sum Tree-LSTMs 
定义 树 中 节点 了 的 子 节点 集合 为 C(7)， 则 节点 了 的 状态 计算 如 下 : 
hy= YO h 
keC(j) 
ij = o (Wa, + Uh; +b) 
fix =9 (Wa; +UMh, + b) 
oj = o (WOz; +U®hj +b) (7.8) 
uj = tanh (Wg; + Uh; +b) 
c= out X foe 
keC(j) 


hj = 0; © tanh (c;) 


由 计算 过 程 可 以 看 出 ，Child-Sum Tree-LSTMs 的 节点 状态 由 该 节点 的 子 节点 加 和 
决定 , 适合 于 子 节点 个 数 不 确 定 的 情况 , 且 与 子 节点 的 顺序 无 关 , 因此 , 它 适用 于 依存 关 
系 分 析 树 。 通常 将 Child-Sum Tree-LSTMs 应 用 于 依存 关系 树 时 的 模型 称 为 Dependency 
Tree-LSTMs. 

(2) N-ary Tree-LSTMs 

对 于 子 节点 数 最 多 为 W， 且 子 节点 有 序 的 树 状 结构 ， 定 义 树 中 节点 了 的 第 个 子 节 
点 的 隐 层 和 记忆 单元 分 别 为 hjr 和 cik， 则 节点 了 的 状态 计算 如 下 : 


N 
ij =o (wss 4 SUP hy 平 wo) 


l=1 


N 
fje=o (woss £ > UP hi + v0) 


l=1 


N 
oj=0 (wo jt UP hy + wo) 


l=1 (7.9) 


N 
uj = tanh (woss + > Uh 十 a 


l=1 
N 

oj = Oust faca 
l=1 


hj = 0; © tanh (c;) 
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相对 于 Child-Sum Tree-LSTMs, N-ary Tree-LSTMs 为 每 一 个 子 节点 引入 了 独立 
的 参数 和 矩阵， 二 者 的 相同 点 是 都 为 每 个 子 节点 定义 了 独立 的 遗忘 门 ， 只 不 过 N-ary 
Tree-LSTMs 的 遗忘 门 考虑 了 所 有 子 节点 之 间 的 交互 情况 。 

N-ary Tree-LSTMs 适用 于 成 分 句法 树 (constituent trees), 通常 称 为 之 Constituent 
Tree-LSTM. 论文 [Tai et al., 2015] 中 使 用 的 是 二 叉 成 分 句法 树 (binarized constituent 
trees), 每 个 中 间 节 点 仅 包含 左 子 节点 和 右 子 节点 两 个 节点 。 

此 外 ,， 当 以 上 两 种 Tree-LSTMs 模型 应 用 于 树 结构 为 线性 结构 的 情况 时 , 计算 过 程 
就 退化 成 了 标准 的 LSTM。[Tai et al., 2015] 在 句子 级 情感 分 类 任务 数据 集 (SST) 上 进 
行 了 实验 , 结果 相 比 于 已 有 的 方法 和 标准 的 LSTM 及 其 变 体 有 明显 的 提升 , 证 明 该 模型 
是 有 效 的 。 


5. 层次 化 的 文档 编码 模型 


[Tang et al., 2015] 提 出 了 层次 化 的 文档 编码 模型 Conv-GRNN 和 LSTM-GRNN, 模 
型 结构 如 图 7.8 所 示 。GRNN 是 一 种 简化 的 类 似 GRU 的 神经 网 络 单元 。 


OO000 


文档 表示 4 Softmax 
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文档 组 成 Neural Network, Neural Network Neural Network 
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图 7.8 基于 层次 化 表示 的 文档 情感 分 类 模型 [Tang et al., 2015] 


与 以 往 将 文档 作为 词语 序列 处 理 的 方式 相 比 ,论文 [Tang et al., 2015] 中 首先 使 
用 CNN 或 LSTM 对 每 个 句子 进行 建 模 ， 句 子 中 的 每 个 词 经 过 CNN 或 LSTM 模块 
得 到 该 词 的 编码 ， 并 使 用 平均 池 化 作为 每 个 句子 的 表示 ， 然 后 将 文档 包含 的 多 个 句 
子 表示 所 构成 的 序列 输入 到 GRNN F, 得 到 每 个 句子 的 编码 ， 最 后 对 各 句子 的 编 
码 使 用 平均 池 化 得 到 文档 的 表示 ， eet Softmax 层 进行 分 类 。 在 餐馆 评论 数据 集 
Yelp2013、Yelp2014、Yelp2015 和 电影 评论 数据 集 IMDB 上 的 实验 结果 表明 , 这 种 针对 
ee de 明显 的 提升 。 
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7.4 词语 级 情感 分 析 与 情感 词典 构建 


情感 词典 是 判断 词汇 和 文本 情感 倾向 性 的 重要 工具 ， 其 自动 构建 方法 是 情感 分 析 和 
观点 挖掘 领域 的 一 个 重要 研究 方向 。 情 感 词 典 构建 的 方法 主要 分 为 基于 知识 库 的 方法 、 
基于 语料库 的 方法 以 及 两 者 相 结合 的 方法 。 文 献 [ 王 科 等 ,2016] 对 中 英文 情感 词典 的 自 
动 构建 方法 进行 了 较为 详细 的 综述 。 


7.4.1 ”基于 语义 知识 库 的 方法 


有 些 语种 已 经 具有 相对 充分 、 开 放 的 语义 知识 库 (如 英文 的 WordNet), 通过 挖掘 其 
中 词 与 词 之 间 的 关系 (如 同 义 、 反 义 、 上 位 和 下 位 关系 等 ), 就 可 以 构建 出 一 部 通用 性 较 
强 的 情感 词典 。 例 如， [Hu and Liu, 2004] 在 研究 商品 评论 挖掘 时 , 事先 设 定 已 知 询 贬 的 
种 子 词 集 , 然后 基于 WordNet 中 的 同义词 、 反 义 词 等 词 问 关系 对 种 子 词 集 进行 扩展 , 最 
后 整理 得 到 了 一 份 通用 的 情感 词典 。 

上 述 工作 只 是 针对 形容 词 进行 的 词典 构建 , 但 是 , 情感 词 不 仅仅 只 有 形容 词 , 有 些 名 
词 、 动 词 和 副词 等 都 可 能 包含 情感 信息 。 同 时 ,该 方法 只 提供 褒贬 两 种 情感 极 性 , 未 能 提 
供 情感 强度 , 也 没有 中 性 情感 词 。 针 对 这 些 问 题 ，[Strapparava and Valitutti, 2004; Kim 
and Hovy, 2004; Blair-Goldensohn et al., 2008] 提出 了 改进 方法 , 如 [Blair-Goldensohn 
et al., 2008) 在 根据 同 义 、 反 义 关 系 进行 词 集 扩展 过 程 中 添加 了 一 个 中 性 词 集合 ， 提 
高 了 候选 词 集合 的 准确 率 。 除 了 基于 词 间 关系 以 外 , 还 有 一 些 工 作 ,， 如 [Kamps et al., 
2004; Andreevskaia and Bergler, 2006; Baccianella et al., 2010; Esuli and Sebastiani, 
2007] 等 ,利用 语义 知识 库 中 两 个 词 之 间 的 关系 路 径 和 词 的 释义 等 信息 进行 情感 词典 
构建 。 
基于 知识 库 的 方法 仅 依赖 语义 知识 库 即 可 快速 地 构建 情感 词典 ， 且 词典 具有 较 强 的 
通用 性 ， 但 也 存在 对 语义 知识 库 有 较 强 的 依赖 性 、 领 域 适 应 性 差 、 情 感 分 析 精 度 欠 佳 等 
明显 的 缺点 。 


7.4.2 ”基于 语料库 的 方法 


前 文 曾经 提 到 , 情感 分 析 是 一 项 领域 相关 的 任务 。 不 同 领域 的 情感 词 分 布 和 使 用 习 
惯 存在 较 大 的 差异 ,如 评论 文本 : “运行 速度 快 ” 和 “电池 耗 电 快 ”， 同 一 个 情感 词 “ 快 ” 
在 不 同 的 领域 或 者 描述 不 同 的 评价 对 象 时, 表达 的 情感 极 性 完全 相反 。 

通用 词典 或 其 他 特定 领域 的 情感 词典 用 于 某 个 领域 的 情感 分 析 时 ， 召 回 率 通常 会 变 
得 很 低 ， 且 精准 率 也 会 显著 下 降 。 为 了 解决 某 些 特定 领域 的 情感 分 析 问 题 , 通常 需要 使 
用 领域 情感 词典 。 基 于 语料库 的 情感 词典 构建 方法 是 从 语 料 中 自动 学 习 情感 词汇 , 具有 
领域 自 适 应 、 时 效 性 强 、 情感 分 析 精 度 高 等 特点 。 这 种 方法 需要 有 人 工 标注 的 大 规模 语 
BEE, 实现 方法 可 细 分 为 连接 关系 法 、 同 现 关系 法 和 表示 学 习 法 三 种 。 
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1. 连接 关系 法 


连接 关系 法 的 本 质 是 基于 自然 语言 文本 中 相 邻 词 的 连接 关系 判断 前 后 词语 之 间 的 情 
感 极 性 变化 , 如 某 些 并 列 连 词 (如 “也 ”“ 而 且 ” 等 ) 前 后 的 情感 通常 不 变 , 而 转折 词 (“但 
是 ”“ 就 是 ”等 ) 前 后 的 情感 词 通常 会 发 生 反 转 。 请 看 如 下 评论 文本 : 

(1) 总 体 /NN 不 错 /VA,/PU (2 ) 就 是 /AD 有 点 /AD H/VA,/PU (3 ) 而 且 /AD 
物流 /NN 不 /AD 是 /VC 很 /AD 快 /VA,/PU (4) 不 过 /AD 还 是 /AD 很 /AD 满意 /VA 
的 /DEC 一 次 /CD 网 购 /NN,/PU (5) 希望/VV 用 /VV A/VA 一 点 /AD . /PU 


文本 中 的 数字 是 子 句 的 编号 。 该 段 评论 中 有 大 量 因 转 折 词 而 导致 情感 极 性 反 转 的 情况 。 

论文 [Hatzivassiloglou and McKeown, 1997] 详细 总 结 了 英语 中 的 语言 规则 和 连接 
模式 , 通过 大 量 的 实验 数据 证 明了 连词 的 前 后 词 的 极 性 关系 , 并 基于 语料库 和 情感 种 子 
HR, 进行 了 形容 词 的 情感 指向 识别 研究 。 他 们 首先 提取 出 连词 所 连接 的 形容 词 ， 标注 
其 中 高 频 词 的 极 性 , 根据 形容 词 对 在 不 同 连词 下 出 现 的 次 数 , 使 用 Logistic 回归 模型 确 
定 连词 前 后 两 个 词 是 否 上 共有 相同 或 相反 的 情感 极 性 , 然后 使 用 聚 类 算法 产生 两 个 词 簇 ， 
最 后 对 这 两 个 词 禾 进行 误 义 和 贬义 极 性 标注 。[Kanayama and Nasukawa, 2006] 对 该 方 
法 做 了 进一步 的 深化 。[ 王 科 等 ,2015] 将 该 方法 应 用 于 汉语 情感 词典 的 构建 研究 中 。 

连接 关系 法 的 缺点 在 于 它 是 基于 语言 规则 实现 的 ,通常 采用 形容 词 作为 候选 词 集 ， 
DS] A i: TA BEAK o 


2. 同 现 关 系 法 
同 现 关 系 法 的 基本 依据 是 : 以 相似 的 模式 出 现在 文本 中 的 词语 具有 较 高 的 语义 和 情 
感 相似 度 。 
如 7.3.1 节 所 述 ，[Turney, 2002] 使 用 候选 情感 词 与 正面 、 负 面 种 子 词 的 PMI 之 差 
度量 该 词 的 情感 倾向 (SO) 值 : 
SO (t) = PMI (w, wt) — PMI (w, w`) (7.10) 
其 中 , w 表示 候选 情感 词 , w+ 和 w 分 别 表示 正面 和 负面 种 子 词 。 若 SO EKTRE, 
说 明 该 词 与 正面 词 关系 更 紧密 ， 即 为 误 义 词 的 概率 较 大 ,反之 则 为 负面 词 的 概率 较 大 ， 
以 此 确定 词 的 极 性 。 
BEY PMI 之 外 , 同 现 程度 还 可 以 基于 其 他 模型 求 得 。 如 [Turney and Littman, 2003] 
利用 潜在 语义 分 析 (LSA) 技术 计算 情感 倾向 性 : 
SOLSA(w)= >》 LSA(wwt)— >》 LSA(w,w) (7.11) 
wtePwords 0 一 ENwords 
其 中 , Pwords 和 Nwords 分 别 表示 正面 和 负面 种 子 词 集 。 
除了 考虑 词 与 词 之 间 的 共 现 关系 以 外 , 还 可 以 直接 计算 候选 词 与 情感 类 别 之 间 的 共 
现 关系 。 在 [Mohammad et al., 2013] 实现 的 方法 中 , 首先 计算 候选 词 与 情感 标签 (或 文 
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本 中 的 自然 标注 , 如 微 博 文本 中 的 表情 符 ) 之 间 的 PMI: 
p(+lt) 


PMI (t, +) = log = (7.12) 
网 
PMI (t, =) = log = (7.13) 
然后 据 此 计算 候选 词 的 情感 强度 : 
SO (t) = PMI (t, +) — PMI(t, —) (7.14) 


同 现 关 系 法 简单 易 行 , 不 仅 可 以 得 到 词汇 的 情感 极 性 , 还 能 够 得 到 情感 强度 。 但是， 
该 方法 过 于 依赖 统计 信息 , 只 考虑 词语 的 共 现 情况 , 缺少 对 复杂 语言 现象 (尤其 是 否定 、 
转折 等 情感 极 性 的 转移 现象 ) 的 建 模 。 如 在 “质量 不 错 ,就 是 有 点 贵 ” 这 样 的 评论 文本 
H, 如 果 仅仅 考虑 同 现 关系 , 会 错误 地 判断 “不 错 ” 和 “ 焉 ”两 个 词 之 间 的 情感 是 相似 的 ， 
而 不 会 考虑 到 它们 之 间 的 转折 关系 。 


3. 表示 学 习 法 


现 有 的 语义 表示 学 习 方法 大 多 源 于 分 布 假设 , 该 假设 认为 “< 上下文 相似 的 词语 具有 
相似 的 语义 ”。 分布 表示 学 习 的 第 一 个 模型 是 神经 网 络 语言 模型 (NNLM), 该 模型 最 早 
通过 神经 网 络 在 无 监督 的 语 料 上 训练 词语 的 分 布 表 示 , 使 得 上 下 文 接近 的 词语 具有 相似 
的 表示 。 后 续 的 研究 相继 提出 了 Log-Bilinear、word2vec、GloVe 等 表示 学 习 模 型 。 但 是 ， 
由 于 分 布 假设 本 身 的 局 限 性 ,基于 该 假设 的 表示 学 习 方法 仅 考虑 了 上 下 文 的 相似 性 ， 而 
未 能 考虑 词语 之 间 的 情感 信息 ,因此 所 获取 的 分 布 表示 往往 存在 一 个 问题 : 两 个 情感 相 
反 的 词 (如 “good”,“bad”), 却 具 有 相近 的 表示 。 

为 了 解决 这 一 问题 ，[Tang et al., 2014a] 提出 一 种 融入 语义 和 情感 信息 的 表示 学 习 
方法 。 该 方法 在 Skip-Gram 模型 的 基础 上 增加 了 句子 级 的 情感 监督 模型 ,通过 两 个 模型 
的 融合 共同 学 习 分 布 表 示 。 基 于 这 种 情感 表示 的 Softmax 回归 分 类 器 在 SemEval 2013 
情感 分 类 任务 上 取得 了 比 传统 特征 更 好 的 效果 。 为 了 构建 情感 词典 , [Tang et al., 2014b] 
使 用 情感 表示 作为 特征 , 通过 Softmax 分 类 器 对 词 表 中 的 每 一 个 词语 进行 情感 得 分 预 
测 ， 以 此 构建 情感 词典 。 

[Vo and Zhang, 2016] 提出 了 一 种 文档 级 情感 表示 学 习 方 法 。 这 种 方法 通过 神经 网 
络 的 方法 为 每 个 词语 学 习 两 维 的 词 嵌 入 向 量 , 这 两 维 信息 分 别 表 示 一 个 词语 被 预测 为 正 
向 情感 词 或 者 负 向 情感 词 的 概率 。 然后 利用 该 词语 被 预测 为 正 向 情感 类 别 的 概率 与 其 被 
预测 为 负 向 情感 词 的 概率 的 差 值 作为 该 词语 最 终 的 情感 得 分 , 通过 这 种 方式 为 词 表 中 每 
个 词语 进行 情感 打分 ， 从 而 构建 情感 词典 。 

[Wang and Xia, 2017] 提出 了 一 种 综合 词语 级 和 文档 级 两 种 粒度 的 监督 信息 进行 情 
感 表示 学 习 的 方法 。 除 了 使 用 文档 级 的 情感 标签 作为 监督 , 论文 还 采用 PMI-SO 方法 
获取 词语 级 情感 标签 , 共同 辅助 情感 词 的 表示 学 习 。 在 情感 词典 的 构造 上 , 他们 借鉴 了 
[Tang et al., 2014b] 提出 的 情感 词典 构建 方法 。 
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7.4.3 ”情感 词典 性 能 评估 


情感 词典 的 性 能 评估 方式 可 分 为 直接 评估 法 和 间接 评估 法 。 直 接 评估 方法 通过 对 比 
生成 词典 与 标准 词典 实现 ,而 间接 评估 方法 则 将 情感 词典 应 用 到 情感 分 析 任务 中 , 通过 
情感 分 析 结 果 评 价 词典 的 性 能 。 

直接 评估 方法 主要 是 直接 对 词典 本 身 进行 评估 , 其 中 一 种 方法 是 随机 提取 词典 中 一 
定 比例 (如: 50/100/200) 或 者 全 部 的 词汇 ， 人工 判断 或 者 与 通用 情感 词典 对 比 情 感 词 的 
极 性 是 否 正确 ,以 这 些 词 的 准确 率 衡量 整个 情感 词典 的 性 能 。 或 者 将 情感 词典 与 经 过 人 
工 标 注 的 情感 词典 进行 对 比 , 计算 精确 率 (presicion)、 召 回 率 (recall) All Fy 值 。 

情感 词典 的 间接 评估 需要 与 情感 分 析 任 务 相 结合 , 例如 根据 情感 词典 在 文档 级 情感 
分 类 任务 中 的 表现 来 实现 评估 ,具体 又 可 分 为 监督 情感 分 类 和 无 监督 情感 分 类 两 种 情形 
Vib 

基于 监督 情感 分 类 的 情感 词典 评估 方法 通常 使 用 词典 特征 训练 监督 的 分 类 器 (如 
Softmax 回归 、SVM 等 ), 并 通过 分 类 器 对 文档 进行 情感 分 类 , 以 监督 情感 分 类 的 性 能 
评估 情感 词典 性 能 。 词典 特征 是 指使 用 情感 词典 设计 的 一 些 特征 ， 如 文档 中 每 一 种 极 性 
情感 强度 最 大 的 词语 得 分 、 每 一 种 极 性 情感 词 的 情感 得 分 之 和 等 。 [Mohammad et al., 
2013] 对 每 一 种 情感 极 性 ( 正 向 、 负 向 ) 定义 了 如 表 7.4 所 示 的 情感 词典 特征 。[Tang et 
al., 2014a; Wang and Xia, 2017] 在 情感 词典 评估 中 使 用 了 该 特征 模板 。 


RTA 基于 情感 词典 的 情感 分 类 特征 模板 [Mohammad et al., 2013] 
特征 组 号 含义 
1 文本 中 该 极 性 的 情感 词 中 情感 得 分 大 于 0 的 词语 数目 
2 文本 中 该 极 性 的 所 有 词 情感 得 分 之 和 
3 文本 中 该 极 性 的 最 大 情感 词 得 分 
4 文本 中 该 极 性 的 最 后 一 个 非 0 的 情感 词 得 分 


基于 无 监督 情感 分 类 的 情感 词典 评估 方法 通常 采用 7.3.1 节 所 述 的 规则 化 方法 , 即 
将 文档 中 每 个 词 的 情感 得 分 之 和 作为 该 文档 最 终 的 情感 得 分 , 将 情感 得 分 大 于 0 的 文本 
预测 为 正 向 类 别 , 反之 为 灸 向 类 别 。 最 后 , 通过 FF 值 或 准确 率 等 指标 评估 情感 词典 在 情 
感 分 类 任务 中 的 表现 。 


7.5 ”属性 级 情感 分 析 


正如 前 面 所 述 , 情感 分 析 包 括 文档 级 、 句子 级 、 词语 级 和 属性 级 等 多 个 层次 , 词语 或 
短语 级 情感 分 析 的 目的 是 识别 词语 或 短语 个 体 的 情感 极 性 , 句子 或 文档 级 情感 分 析 的 任 
务 是 识别 文档 或 句子 整体 的 情感 ， 而 不 涉及 评论 的 具体 属性 以 及 针对 该 属性 的 情感 。 属 
性 级 情感 分 析 的 目标 则 是 识别 文本 的 评价 对 象 , 并 确定 针对 该 评价 对 象 的 情感 。 

为 了 简单 起 见 , 本 节 所 述 的 属性 级 情感 分 析 主 要 是 针对 评价 对 象 与 情感 (g, 8) 二 元 
组 进行 的 抽取 和 识别 , 其 核心 任务 有 两 个 : 属性 抽取 和 属性 情感 分 类 。 
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7.5.1 ”属性 抽取 


在 一 条 评论 中 属性 和 情感 往往 是 成 对 出 现 的 , 这 是 属性 抽取 不 同 于 传统 的 信息 抽取 
技术 的 独 有 特点 。 
目前 属性 抽取 的 主要 方法 包括 如 下 三 种 。 


1. 无 监督 学 习 方 法 


早期 的 属性 抽取 方法 是 基于 启发 式 规则 实现 的 。 一 般 来 说 , 特定 领域 的 属性 用 词 集 
中 在 某 些 名 词 或 名 词 短语 上 , 因此 高 频 名 词 或 名 词 短 语 通 常 是 显 式 的 属性 表达 。 [Hu and 
Liu, 2004] 首先 提出 了 属性 抽取 任务 , 他 们 利用 词性 信息 选择 出 名 词 和 名 词 短语 , 然后 
筛选 出 其 中 的 高 频 词汇 作为 属性 。 该 方法 虽然 简单 易 行 ,但 也 有 弊端 , 它 抽取 出 的 属性 
词 通常 包含 较 多 的 噪声 。 为 了 提高 算法 的 准确 率 ，[Popescu and Etzioni, 2007] 通过 计算 
候选 属性 (如 “Epson 1200”) 和 自动 生成 的 判别 短语 之 间 (“is a is a scanner”) 的 点 式 
互信 息 试图 从 高 频 的 名 词 和 名 词 短语 列表 中 过 滤 掉 非 评 价 属 性 。[Ku et al., 2006] 首先 计 
算 词语 在 文档 和 段落 粒度 的 TF-IDF 值 ， 然 后 通过 比较 候选 词 在 跨 文档 /段落 的 频率 与 
文档 /段落 内 部 的 频率 来 判断 候选 词 是 否 为 有 效 属性 。[Yu et al., 2011] 利用 浅 层 依存 关 
系 分 析 器 提取 合适 的 名 词 词组 作为 属性 候选 词 , 在 此 基础 上 利用 属性 排名 算法 提取 重要 
属性 。 

除了 利用 属性 的 名 词性 特点 ， 有 些 研究 还 利用 了 属性 与 情感 之 间 的 关联 关系 。 由 于 
任何 情感 表达 均 有 其 对 象 , 属性 及 其 对 应 的 情感 通常 成 对 出 现 ， 因此 可 以 利用 该 关系 
进行 属性 抽取 。[Hu and Liu, 2004] 利用 该 关系 提取 出 非 高 频 属性 ， 其 基本 思想 是 : 如 
果 一 条 评论 中 没有 高 频 属性 词 , 但 有 情感 词 , 那么 距离 该 情感 词 最 近 的 名 词 或 名 词 短 
语 将 被 提取 作为 属性 词 。 类 似 的 方法 和 原理 也 被 应 用 在 [Blair-Goldensohn et al., 2008] 
H. [Zhuang et al., 2006] 利用 依存 关系 分 析 器 识别 观点 与 对 象 之 间 的 关系 , 用 于 提取 属 
性 。[Qiu et al., 2011] 进一步 结合 依存 关系 树 提 出 了 双 传 播 (double-propagation) 算法 ， 
可 同时 提取 情感 词 和 属性 。 


2. 传统 的 监督 学 习 方 法 


[Kobayashi et al., 2007] 首 先 利用 依存 树 寻找 候选 属性 和 观点 词 对 ， 然 后 利用 树 结构 
分 类 方法 对 词 对 进行 学 习 和 分 类 。 实际 上 , 属性 提取 是 信息 抽取 问题 的 特例 , 因此 序列 学 
JEW, 如 隐 马 尔 可 夫 模 型 (hidden Markov models, HMM) 和 条 件 随机 场 (conditional 
random fields, CRF) 模型 等 , 都 可 以 用 于 属性 抽取 。 

[Jin et al., 2009] 使 用 了 词汇 化 的 HMM 模型 抽取 属性 及 其 情感 。[Li et al., 2010] 在 
线性 链 CRF (linear-chain CRF) 模型 的 基础 上 , 提出 了 Skip-chain CRF, Tree CRF 和 
Skip-tree CRF 模型 用 于 属性 抽取 。 

[Jakob and Gurevych, 2010] 基于 CRF 进行 单 领域 和 跨 领域 两 种 设置 下 的 属性 抽 
取 , 他 们 制定 了 包括 词 项 特征 、 词 性 特征 、 依 存 关 系 特征 、 词 距离 特征 和 观点 特征 在 内 的 
特征 模板 , 如 表 7.5 所 示 。 在 跨 领域 的 属性 抽取 任务 中 , 他 们 发 现 同样 的 情感 词 在 不 同 的 
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领域 可 能 有 不 同 的 倾向 性 , 如 “unpredictable” 在 电影 评论 中 的 情感 是 正 向 的 , 而 在 汽车 
领域 中 却 是 负 向 的 。 另外 , 不 同 领域 的 属性 词汇 表 的 差距 很 大 , 即 出 现 的 属性 和 领域 是 
相关 的 , 这 也 是 跨 领 域 属性 抽取 的 主要 困难 所 在 。 

[Yang and Cardie, 2013] 基于 CRF 模型 提出 了 一 个 观点 表达 、 观 点 持 有 者 和 观点 
目标 三 者 联合 的 抽取 模型 , 同时 用 于 识别 观点 表达 与 其 目标 和 持 有 者 之 间 的 关系 。 


表 7.5 用 CRE 进行 属性 抽取 时 所 使 用 的 特征 模板 [Jakob and Gurevych, 2010] 


特征 说 明 示例 

词 项 特征 (tk) 当前 词 项 

词性 特征 (POS) 当前 词 项 的 词性 标注 

依存 关系 特征 (dLn) ”当前 词 项 是 否 与 句子 中 的 观点 有 ”了 like the food 中 , I Ail food 5 like 有 
直接 的 依赖 关系 直接 的 依赖 关系 (I_NSUBJ-like 及 like- 

DOBJ-food) 

词 距 特征 (wrdDist) 当前 词 项 是 否 属于 距离 观点 最 近 ”本 like the food 中 的 the food 是 距离 观点 
的 短语 中 最 近 的 短语 

观点 特征 (sSn) 当前 词 项 是 否 包 含 观点 I like the food 中 like 包含 观点 


在 SemEval 2014 评测 中 ，[Chernyshevich, 2014] 同样 使 用 了 CRF 作为 标注 模型 ， 
但 他 们 改进 了 标注 体系 。 他 们 使 用 新 的 标注 体系 替代 BIO 标注 体系 , 他 们 提出 的 标注 符 
号 含义 如 下 : FA 指 一 个 名 词组 的 中 心 词 前 的 属性 词 ; FPA 指 中 心 词 后 的 属性 词 ; FH 为 
一 个 名 词组 的 中 心 词 ; FI 为 名 词组 中 的 其 他 名 词 ; O 则 为 其 他 非 要 素 词 或 符号 。 例如， 
对 于 句子 “I/O want/O to/O unplug/O the/O external/FA keyboard/FH”, 如 果 使 用 
传统 的 BIO 标注 策略 , 单词 “keyboard” 的 标注 会 因为 其 前 面 有 无 属性 词 “external” 而 
改变 , 而 使 用 该 论文 中 的 标注 系统 可 以 使 常见 的 属性 词 不 会 因为 其 前 面 是 否 有 属性 词 而 
被 标注 为 B RI 从 而 提高 了 识别 能 力 。 该 论文 同时 定义 了 丰富 的 特征 模板 , 包括 词汇 
级 别 、 语 义 级 别 和 情感 级 别 三 大 类 共 15 项 特征 。 

[Toh and Wang, 2014] 从 命名 实体 识别 (named entity recognition, NER) 任务 中 得 
到 启发 , ER 7.5 所 使 用 的 词 项 特征 、 词 性 特征 和 依赖 关系 特征 以 外 , 还 引入 了 中 心 词 特 
征 、 中 心 词 词性 特征 和 索引 特征 等 , 如 表 7.6 所 示 。 在 此 基础 上 , 他 们 还 增加 了 一 些 从 大 
量 未 标注 语 料 中 得 到 的 特征 ， 如 WordNet 分 类 信息 、 领 域内 其 他 语 料 如 Yelp, Amazon 
的 词 聚 类 信息 特征 等 , 在 当时 评测 任务 上 取得 了 优异 的 成 绩 。 


3. 深度 学 习 方 法 


[Liu et al., 2015b] 基 于 词 嵌 入 和 循环 神经 网 络 提出 了 一 个 通用 的 细 粒 度 观点 挖掘 模 
型 框架 。 他们 对 比 测试 了 多 种 不 同 结构 的 循环 神经 网 络 (Elman-type RNN, Jordan-type 
RNN、LSTM、 双 向 结构 等 ), 多 种 不 同 设置 、 不 同 语 料 训练 得 来 的 词 柑 入 ,以 及 是 否 在 
训练 时 微调 词 嵌 入 等 因素 对 实验 效果 的 影响 。 结果 表明 , 无 论 对 于 RNN 还 是 对 于 CRF, 
词 嵌 入 的 引入 都 可 以 提升 模型 的 性 能 , 在 训练 中 对 词 嵌 入 进行 微调 可 以 获得 进一步 的 性 
能 提升 。 此 外 , 即使 只 使 用 词 嵌入 , RNN 的 性 能 也 会 优 于 使 用 了 大 量 特征 工程 的 CRF. 

[Wang et al., 2016a] 提出 了 一 种 递归 神经 网 络 条 件 随 机 场 (RNCREF) 模型 , 用 于 评 
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论 中 要 素 和 观点 的 联合 抽取 。 图 7.9 给 出 了 RNCRF 的 结构 示意 图 ， 该 方法 首先 对 给 定 
句子 的 依存 关系 树 使 用 递归 神经 网 络 对 树 的 每 个 节点 进行 编码 ， 以 递归 的 方式 得 到 树 中 
每 个 词 以 及 词 间 依 存 关系 的 表示 , 送 入 Softmax 层 得 到 每 个 词 的 属于 各 个 类 别 的 概率 ， 
最 后 与 线性 链条 件 随 机 场 相 结合 ， 求 得 整个 序列 上 的 最 优 标注 。 实 验 表 明 ， 简 单 地 使 用 窗 
口上 下 文 的 RNCRE 的 性 能 要 优 于 使 用 了 大 量 人 工 特征 工程 的 传统 方法 。 在 此 基础 上 , 如 
果 使 用 少量 易 获 得 的 附加 特征 ,如 词性 标注 、 索 引 特征 等 , 可 以 得 到 更 好 的 性 能 。 


线性 链 CRF 中 的 成 对 连接 
C like) the(y) foods) > 
ICRF 中 的 输入 输出 连接 
RNNN 


Wy Wy 
CD D D GD) 
图 7.9 基于 RNCREF 的 要 素 和 观点 的 联合 抽取 [Wang et al., 2016a] 


[Li and Lam, 2017] 提 出 了 一 个 记忆 提升 的 LSTM 模型 , 在 LSTM 的 基础 上 引入 
了 记忆 交互 机 制 。 由 于 要 素 和 观点 往往 成 对 出 现 ， 他 们 定义 了 两 个 模块 (A-LSTM 和 
O-LSTM) 分 别 用 于 属性 和 观点 的 抽取 , 这 两 个 LSTM 模块 通过 记忆 交互 机 制 互相 交换 
信息 , 最 后 建立 一 个 基于 全 句 表示 的 LSTM (S-LSTM), 将 A-LSTM 和 S-LSTM 的 隐 层 
表示 拼接 后 进行 属性 抽取 。 模 型 结构 如 图 7.10 所 示 。 
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图 7.10 ”基于 要 素 和 观点 交互 注意 力 机 制 的 属性 模型 [Li and Lam, 2017] 
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7.5.2 ”属性 情感 分 类 


属性 情感 分 类 是 指 在 评价 对 象 已 知 的 情况 下 , 对 评价 对 象 进行 情感 倾向 性 判别 。 属 
性 情感 分 类 的 主要 方法 包括 : 基于 词典 的 方法 、 传统 的 分 类 方法 和 深度 学 习 方 法 。 


1. 基于 词典 的 方法 


基于 词典 的 方法 基本 思路 是 利用 情感 词典 (包含 情感 词 或 短语 )、 复合 表达 、 观 点 规 
则 和 句法 分 析 树 来 确定 句子 中 每 个 属性 的 情感 倾向 , 同时 考虑 情感 转移 、 转 折 等 可 能 影 
响 情感 的 结构 。 

[Hu and Liu, 2004] 基于 情感 词典 将 句子 中 的 所 有 情感 词 得 分 简单 地 相 加 ， 作 为 句 
子 中 属性 的 情感 得 分 。[Kim and Hovy, 2004] 除了 考虑 观点 区 域内 的 情感 词 极 性 以 外 ， 
还 考虑 了 情感 词 的 强度 ， 并 利用 乘法 规则 计算 情感 得 分 。[Ding et al., 2008] 设计 了 详细 
的 属性 情感 计算 规则 , 在 计算 属性 情感 得 分 时 考虑 情感 词 和 属性 词 的 距离 因素 ; 


score (f) = ye ante (7.15) 
WiES 


其 中 , SO(wi) 表示 情感 词 w; 的 语义 倾向 性 , dist(wi, f) 表示 情感 词 wi 与 属性 词 了 之 间 
的 距离 ,距离 越 近 的 情感 词 对 属性 词 的 情感 得 分 贡献 越 大 。 此 外 , 该 方法 还 考虑 了 否定 、 
转折 、 同 义 、 反 义 以 及 在 上 下 文中 的 情感 依赖 关系 等 因素 。 

基于 词典 的 方法 简单 易 行 , 但 也 存在 性 能 有 限 和 依赖 于 规则 的 缺陷 。 为 此 ， 有 很 多 
学 者 对 这 种 方法 进行 了 改进 。[Blair-Goldensohn et al., 2008] 结合 有 监督 的 学 习 方法 对 
该 方法 进行 了 加 强 。[Thet et al., 2010] 借助 情感 词典 SentiWordNet 确定 评论 中 各 个 属 
性 的 情感 倾向 和 情感 强度 。 


2. 传统 的 分 类 方法 


[Jiang et al., 2011] 分 析 了 属性 词 与 其 他 词 的 依存 关系 , 强调 了 属性 特征 在 属性 情感 
分 类 任务 中 的 重要 性 , 设计 了 一 系列 属性 相关 特征 , 将 其 加 入 到 传统 的 情感 分 类 特征 模 
板 中 ,显著 提升 了 情感 分 类 的 性 能 。 

[Kiritchenko et al., 2014] 设计 了 一 个 复杂 的 特征 模板 , 使 其 包括 表层 特征 、 词 典 特 
征 和 句法 特征 三 类 特征 (每 一 类 特征 下 都 引入 了 属性 对 象 信息 ), 然后 基于 该 特征 模板 使 
用 SVM 分 类 器 进行 情感 分 类 , 在 SemEval 2014 属性 情感 分 类 任务 中 取得 了 最 佳 性 能 。 
针对 该 方法 需要 依赖 句法 分 析 的 缺点 , [Vo and Zhang, 2015] 将 评论 文本 划分 为 “评价 对 
象 "“ 左 上 下 文 ” 和 “右上 下 文 ” 三 部 分 , 基于 这 三 部 分 关系 抽取 一 个 包含 传统 词 嵌 入 、 
带 情感 的 词 嵌 入 和 词典 特征 的 特征 模板 ,最 后 利用 SVM 分 类 器 进行 情感 分 类 。 尽 管 该 
工作 使 用 了 深度 学 习 进 行 词 嵌入 的 学 习 , 其 主体 框架 还 是 传统 的 统计 分 类 方法 。 


3. 深度 学 习 方 法 


随 着 深度 学 习 方法 在 自然 语言 处 理 领域 的 进一步 发 展 , 针对 属性 情感 分 类 问题 也 出 
现 了 一 些 “ 端 到 端 ”的 深度 学 习 方 法 。 
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[Dong et al., 2014] 提出 了 自 适应 的 递归 神经 网 络 模型 (adaptive recursive neural, 
AdaRNN)。 该 方法 首先 使 用 依存 关系 树 对 Twitter 文本 进行 解析 , 然后 使 用 特定 规则 
和 递归 神经 网 络 对 评价 对 象 和 上 下 文 进行 向 量 表 示 , 最 后 通过 Softmax 层 计 算 对 象 的 
情感 。 该 文 作 者 建立 了 一 个 属性 级 情感 分 类 Twitter 语 料 集 ， 他 们 根据 事先 设 定 的 关 
键 词 利用 官方 API 获取 Twitter 文本 ,其 中 关键 词 作为 评价 对 象 ， 人 工 标注 其 情感 类 
别 , 最 终 形成 的 数据 集 包含 6248 条 训练 数据 、692 条 测试 数据 ， 其 中 正 向 、 中 性 和 负 向 
情感 标签 数据 各 占 25%、50% 和 25%, 该 witter 数据 集 与 SemEval2014 评测 发 布 的 餐 
馆 (Restaurant) 和 笔记 本 电脑 (Laptop) 数据 集 在 属性 级 情感 分 类 任务 的 后 续 研究 中 被 
广泛 使 用 。 

由 于 长 短 时 记忆 网 络 (STM) 可 以 更 加 灵活 地 获取 目标 词 和 其 上 下 文 词 的 语义 关 
联 , 因此 越 来 越 多 的 神经 网 络 模型 构建 在 LSTM 基础 之 上 。 如 图 7.11 所 示 , [Tang et al., 
2016a] 提出 了 三 个 基于 LSTM 的 “ 端 到 端 ”的 属性 级 情感 分 类 模型 : 
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图 7.11 基于 LSTM 的 属性 级 情感 分 类 模型 [Tang et al., 2016a] 
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o 标准 的 LSTM 模型 通过 对 每 个 句子 进行 编码 , 使 用 最 后 一 个 隐藏 层 向 量 表 示 句 
T. 由 于 不 考虑 相同 句子 中 不 同 的 属性 信息 , 含有 不 同属 性 的 句子 用 相同 的 向 量 表示 ; 

e TD-LSTM 为 了 处 理 同一 个 句子 中 含有 不 同属 性 词 的 情况 , 根据 属性 词 所 在 的 位 
置 把 句子 分 成 左右 两 个 分 句 , 分 别 用 LSTM 进行 编码 , 最 后 使 用 两 个 LSTM 的 最 后 隐 
层 表 示 属 性 相关 的 句子 , 取得 了 比 标准 LSTM 更 好 的 效果 。 

e TC-LSTM 在 TD-LSTM 基础 上 , 在 网 络 的 输入 层 将 每 个 词 的 词 嵌 入 拼接 属性 词 
的 词 嵌 入 ， 以 便 更 好 地 利用 属性 信息 。 

[Wang et al., 2016c] 提出 了 基于 注意 力 机 制 的 LSTM 模型 ， 以 便 更 加 充分 地 利用 
属性 信息 。 模 型 结构 如 图 7.12 所 示 。 该 文 作者 首先 在 标准 LSTM 模型 的 基础 上 提出 了 
属性 嵌入 LSTM (aspect embedding LSTM, AE-LSTM) 模型 ， 通 过 目标 词 和 句子 中 词 
的 拼接 作为 输入 送 入 到 LSTM F, 并 在 LSTM 输出 的 隐 层 向 量 之 上 利用 注意 力 机 制 获 
取 不 同 词汇 隐 层 向 量 的 权重 , 最 终 使 用 句子 中 每 个 词汇 隐 层 向 量 的 加 权 平 均值 作为 句子 
的 最 终 向 量 表示 , 其 中 目标 词 的 表示 向 量 在 训练 中 学 习 得 到 。 其 次 , 他 们 提出 了 基于 注 
意 力 的 LSTM (attention based LSTM, AT-LSTM) 模型 : 与 AE-LSTM 模型 的 做 法 不 
同 ，AT-LSTM 将 目标 词 与 句子 中 词汇 的 隐 层 向 量 拼接 。 最 后 , 他 们 将 AE-LSTM 模型 
和 AT-LSTM 模型 融合 , 建立 了 ATAE-LSTM 模型 , 使 目标 词 同时 与 句子 中 词汇 的 输入 
向 量 和 隐 层 向 量 相 拼 接 。 
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7.12 ”基于 注意 力 机 制 LSTM 的 属性 级 情感 分 类 模型 [Wang et al., 2016a] 


[Tang et al., 2016b] 提 出 了 一 种 深度 记忆 网 络 (deep memory network, DMN) 模型 ， 
模型 结构 如 图 7.13 所 示 。 针 对 上 下 文中 不 同 词 对 属性 情感 极 性 判断 的 不 同 影响 ， 作 者 
设计 了 基于 内 容 信 息 和 位 置信 息 的 注意 力 机 制 ， 同 时 考虑 上 下 文 词 的 内 容 和 位 置 对 目 
标 词 的 影响 。 他 们 还 通过 多 层 神经 网 络 提升 了 模型 的 抽象 表示 能 力 。 该 模型 不 仅 取得 了 
很 高 的 正确 率 , 而 且 由 于 只 使 用 前 向 神经 网 络 , 在 时 间 效 率 上 也 优 于 RNN 模型 。 文献 
[Chen et al., 2017a] 在 DMN 基础 上 提出 了 一 种 基于 记忆 的 递归 注意 力 网 络 (recurrent 
attention network on memory, RAM), 该 模型 与 DMN 使 用 词 向 量 矩 阵 作 为 记忆 的 做 
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法 不 同 , 使 用 双向 LSTM 对 句子 进行 编码 后 得 到 的 隐 层 向 量 和 矩阵 作为 记忆 ,同时 使 用 
RNN #40 DMN 中 的 普通 线性 变换 进行 多 层 网 络 的 连接 。 实 验 表 明 , RAM 模型 在 多 个 
数据 集 上 都 获得 了 较 高 的 效果 提升 。 
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图 7.13 属性 级 情感 分 类 深度 记忆 网 络 模型 [Tang et al., 2016b] 


[Zhang et al., 2015] 提 出 了 一 种 三 路 门 控 神经 网 络 (three-way gated neural net- 
works) 模型 用 于 属性 情感 分 类 。 该 模型 首先 使 用 双向 门 控 神经 网 络 (bi-directional 
gated neural network) 对 句子 文本 进行 编码 , 得 到 每 个 词 的 隐 层 表示 向 量 , 然后 根据 目 
标 词 把 隐 层 划分 为 三 部 分 : 左 侧 上 下 文 、 属 性 词 和 右 侧 上 下 文 , 对 三 部 分 分 别 进行 池 化 
操作 , 得 到 三 部 分 的 向 量 表示 , 最 后 采用 一 种 三 路 门 控 神 经 网 络 结构 对 三 部 分 组 成 的 向 
量 进行 交互 操作 , 更 好 地 得 到 目标 相关 的 句子 表示 ,从 而 对 属性 进行 情感 分 类 。 

另外 ，[Liu and Zhang, 2017] 利用 LSTM 得 到 上 述 三 部 分 的 隐 层 表示 后 , 设计 了 
两 种 上 下 文 注意 力 机 制 以 得 到 更 好 的 上 下 文 表示 。[Ma et al., 2017] 对 评价 对 象 和 上 下 
文 (不 区 分 左右 ) 分 别 进行 LSTM 建 模 , 通过 一 种 交互 注意 力 模型 (interactive attention 
networks, IAN) 得 到 更 好 的 评价 对 象 和 上 下 文 表示 。 


7.5.3 ”主题 与 情感 的 生成 式 建 模 


评论 文本 中 的 属性 与 主题 通常 是 强 相关 的 ,因此 出 现 了 一 系列 基于 主题 模型 的 主 
题 与 情感 的 生成 式 建 模 研究 工作 。[Mei et al., 2007] 首次 提出 了 主题 -情感 混合 (topic- 
sentiment mixture, TSM) 建 模 方法 , 他 们 在 传统 主题 模型 的 基础 上 引入 了 情感 变量 , 将 
每 个 词 分 为 通用 背景 词 和 主题 相关 词 , 建立 了 通用 背景 模型 和 若干 主题 模型 。 对 于 通用 
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背景 词 , 按 通 用 背景 词 对 应 的 主题 - 词 项 分 布 进行 抽取 , 而 对 于 每 个 主题 相关 词 , 首先 抽 
取 一 个 主题 , 然后 抽取 该 词 的 情感 类 别 ( 正 向 、 负 向 或 中 性 ), 最 后 根据 各 类 相应 的 主 
题 - 词 项 分 布 进行 文本 生成 , 具体 过 程 如 图 7.14 所 示 。 据 此 构造 的 主题 -情感 混合 模型 在 
引入 主题 和 情感 先 验 知识 的 条 件 下 基于 EM 算法 进行 模型 学 习 ， 并 对 本 文 进行 主题 抽取 
和 情感 分 析 。 


图 7.14 主题 -情感 混合 模型 TSM[Mei et al., 2007] 


[Titov and McDonald, 2008] 提 出 了 一 种 多 属性 情感 分 析 (multi-aspect sentiment 
analysis, MAS) 模型 ， 该 方法 首先 利用 多 粒度 LDA (multi-grain LDA) 模型 进行 主题 抽 
取 , 然后 对 给 定 的 属性 进行 情感 分 析 。 他 们 认为 标准 的 LDA 只 能 抽取 粗 粒度 的 商品 属 
性 , 并 不 适合 细 粒 度 的 属性 抽取 , 而 多 粒度 的 LDA 模型 包含 全 局 主题 和 局 部 主题 ， 从 而 
可 以 同时 发 现 评论 中 的 粗 粒度 属性 和 细 粒 度 属性 。 

[Lin and He, 2009] 同 样 在 传统 LDA 的 基础 上 引入 了 情感 信息 , 该 文 提出 了 一 种 
联合 的 情感 -主题 (oint sentiment-topic, JST) 模型 ， 其 基本 原理 如 图 7.15 所 示 。JST 
为 每 个 文档 抽取 一 个 参数 ra ~ Dir(Y)， 为 每 个 文档 的 每 个 情感 标签 抽取 一 个 参数 
Oa ~ Dir(a), 并 且 为 每 个 情感 标签 下 的 每 个 主题 也 抽取 一 个 参数 pik ~ Dir(B)。 随 后 
根据 上 述 参数 决定 的 类 别 分 布 (categorical distribution) 生成 每 个 文档 的 每 个 词 : 先生 成 
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图 7.15 联合 主题 /情感 模型 JST[Lin and He, 2009] 
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其 情感 标签 i; ~ Cat(ra), 再 生成 其 主题 ~ Cat(6a),), 最 后 生成 词 项 wi ~ Cat(gp1,,z,)。 
对 照 TSM 和 MAS, TSM 需要 对 文档 进行 情感 标注 , MAS 需要 对 部 分 属性 情感 进行 标 
注 , 而 JST 仅 需要 依据 情感 词典 作为 先 验 信息 引导 主题 和 情感 发 现 , 因此 可 以 认为 是 完 
全 无 监督 的 情感 -主题 分 析 模型 。 

[Jo and Oh, 2011] 在 传统 LDA 基础 上 提出 了 句子 级 LDA (Sentence-LDA, SLDA) 
模型 ,该 模型 在 文档 和 词 之 间 增 加 了 句子 粒度 的 主题 建 模 环 节 ， 并 在 此 基础 上 提出 了 一 
种 类 似 于 JST 的 属性 -情感 联合 模型 (aspect and sentiment unification model, ASUM). 
不 同 之 处 在 于 ASUM 假设 同一 个 句子 的 不 同 词汇 具有 相同 的 主题 和 情感 ， 这 种 “ 主 
题 -情感 ”对 所 对 应 的 多 项 分 布 决定 了 该 句子 中 词 项 的 生成 。 图 7.16 比较 了 标准 的 
LDA, Sentence-LDA 和 ASUM 三 个 模型 之 间 的 差异 。 
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图 7.16 标准 的 LDA、SLDA 与 ASUM 模型 对 比 [Jo and Oh, 2011] 


[Brody and Elhadad, 2010] 同 样 基于 局 部 主题 模型 将 评论 文本 按 句子 进行 切割 ,每 
个 句子 作为 一 个 文档 进行 主题 建 模 ， 识 别 属 性 之 后 再 利用 形容 词 关联 关系 建立 情感 词 
典 , 并 识别 属性 对 应 的 情感 。 在 [Zhao et al., 2010] 实现 的 方法 中 , 为 同一 个 句子 的 不 
同 词 分 配 相同 的 属性 ， 并 将 每 个 词 分 成 背景 词 、 通 用 属性 词 、 领 域 属 性 词 、 通 用 情感 词 
和 领域 情感 词 五 种 情况 , 每 种 情况 单独 使 用 一 个 多 项 分 布 进行 主题 建 模 ,在 主题 建 模 之 
前 使 用 基于 少量 标注 语 料 训练 出 的 最 大 焙 模 型 进行 词类 别 的 预测 。[Mukherjee and Liu, 
2012] 提出 了 一 种 半 监 督 的 属性 -情感 联合 抽取 模型 ， 允 许 用 户 提 供 一 些 种 子 属性 词 以 引 
导 主 题 模 型 的 推理 ,从 而 使 抽取 出 的 属性 和 情感 更 加 符合 用 户 的 需求 。 

在 评论 文本 属性 抽取 任务 中 , 局 部 文档 中 频繁 出 现 的 评价 对 象 往往 更 有 价值 。 尽管 
主题 -情感 分 析 模 型 能 够 抽取 在 海量 文档 下 频繁 出 现 的 主题 , 这 些 主题 通常 体现 了 文档 
集 粒度 的 潜在 属性 , 但 是 却 很 难 发 现 局 部 文档 中 频繁 出 现 的 细 粒 度 显 式 属性 , 这 是 上 述 
主题 -情感 分 析 模 型 不 能 取代 属性 抽取 与 情感 分 析 的 一 个 重要 原因 。 


7.6 ”情感 分 析 中 的 特殊 问题 


7.6.1 ”情感 极 性 转移 问题 
情感 极 性 转移 (sentiment polarity shift) 是 指 由 于 一 些 特殊 的 语言 结构 ,使 得 文本 
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中 的 情感 发 生 转 移 的 一 种 语言 现象 。 导致 情感 极 性 转移 的 因素 有 很 多 , 常见 的 包含 否 
定 、 转折、 加强 、 削弱 等 语言 结构 , 它们 被 通称 为 “情感 转移 符 (sentiment shifter)” [Liu, 
2012] 或 “ 效 价 转移 符 (valence shifter)”[Polanyi and Zaenen, 2006]。 

经 过 情感 转移 的 文本 在 文本 表示 时 , 与 原文 本 往往 是 相似 的 , 如 “I like this book” 
All “I don’t like this book” 两 个 句子 , 利用 词 袋 模型 进行 文本 表示 时 具有 很 大 的 相似 性 ， 
但 是 从 情感 表达 上 却 截然 相反 。 根据 文献 [Li et al., 2010] 的 统计 ,商品 评论 文本 中 超过 
60% 的 句子 包含 显 式 的 极 性 转移 现象 。 因此 , 在 情感 分 类 文本 表示 和 分 类 建 模 时 ,必须 
考虑 极 性 转移 问题 。[Liu, 2015] 对 不 同类 型 的 极 性 转移 现象 进行 了 详细 的 分 析 。 在 实际 
问题 中 ， 和 否定 、 转 折 都 会 改变 情感 的 极 性 ， 而 加 强 、 削 弱 只 会 改变 情感 的 程度 ,不 会 改变 
极 性 ， 因 此 研究 者 更 加 重视 对 和 否定、 转折 的 处 理 。 

[Wilson et al., 2005] 讨论 了 短语 和 子 句 级 情感 分 析 中 的 极 性 转移 问题 , 他 们 将 情感 
极 性 事先 确定 的 情感 词典 作为 先 验 知识 ， 使 用 机 器 学 习 方 法 识别 包含 先 验 情感 词 的 短 
语 的 上 下 文 极 性 (contextual polarity). [Choi and Cardie, 2008] 基于 句法 模式 , 手动 设 
计 了 一 系列 语义 组 合 规则 , 将 否定 词 与 词典 极 性 进行 组 合 , 提高 了 子 句 级 情感 分 类 的 性 
fig. [Nakagawa et al., 2010] 提出 了 一 种 半 监 督 的 子 句 级 情感 分 析 方法 ， 该 方法 利用 依存 
句法 树 节点 间 的 依存 关系 捕获 否定 结构 。 

在 属性 级 情感 分 类 任务 中 ，[Hu and Liu, 2004] 首先 识别 出 每 条 评论 中 带 观点 的 
句子 , 然后 通过 分 析 句 子 中 情感 词 和 否定 词 的 组 合 模式 帮助 判断 观点 句子 的 情感 极 
性 。 [Ding and Liu, 2007] 利用 了 连词 (如 and, but) 等 语言 规则 , 如 and 前 后 的 子 句 应 
该 是 相同 的 情感 极 性 , 通过 已 知情 感 极 性 帮助 判断 其 他 观点 的 情感 极 性 。[Ding et al., 
2008] 设计 了 复杂 的 规则 用 于 匹配 否定 、 转 折 和 加 强 、 削 弱 等 各 种 情感 转移 类 型 。 

在 文档 或 句子 级 情感 分 类 任务 中 , 极 性 转移 的 处 理 手段 也 因 情 感 分 类 方法 的 不 同 而 
有 明显 的 区 别 。 一般 来 说 , 在 基于 词典 和 规则 的 情感 分 类 方法 中 比较 容易 处 理 极 性 转移 
问题 ,可 以 通过 设计 合理 的 规则 对 否定、 转折 等 极 性 转移 现象 以 及 情感 增强 和 削弱 等 现 
象 进行 模式 匹配 ,如 果 遇 到 极 性 转移 ， 则 反 转 相应 部 分 的 情感 得 分 ,如果 遇 到 情感 增强 
和 削弱 ， 则 增加 或 减少 相应 部 分 的 情感 得 分 , 最 后 将 各 部 分 的 得 分 累加 ,得 到 全 部 文档 
的 情感 得 分 ， [Taboada et al., 2011] 是 这 种 方法 的 代表 性 工作 。 

传统 的 机 器 学 习 方 法 利用 词 袋 模型 进行 文本 表示 , 这 种 表示 方法 忽略 了 文本 中 的 词 
序 信息 , 不 易 对 极 性 转移 进行 处 理 。 一 种 简单 的 处 理 方法 是 在 被 否定 或 转折 的 情感 词 后 
面 追 加 一 个 “NOT”, 这 样 前 文 的 否定 句 “I don’t like this book” 就 转换 为 “I like-NOT 
this book”, 但 是 这 种 处 理 方法 带 来 的 性 能 提升 非常 有 限 [Das and Chen, 2007; Pang et 
al., 2002]。 还 有 一 些 研 究 工 作 试图 利用 语言 学 特征 和 词典 资源 对 极 性 转移 现象 进行 建 
模 , 如 [Na et al., 2004] 基于 特定 的 词性 模式 定义 规则 以 识别 和 处 理 和 否定 问题 。[Kennedy 
and Inkpen, 2006] 对 三 种 情感 转移 现象 (否定 、 增 强 和 略 弱 ) 进行 建 模 ,实验 结果 表明 ， 
情感 转移 的 处 理 对 于 词典 方法 性 能 的 提升 显著 有 效 , 但 是 对 于 机 器 学 习 方 法 的 性 能 提升 
非常 微弱 。[Ikeda et al., 2008] 基于 General Inquirer 情感 词典 提出 了 一 种 逐 词 和 逐 句 进 
行 极 性 转移 处 理 的 机 器 学 习 方 法 。 

[Li and Huang, 2009] 通过 总 结 极 性 转移 语法 规则 , 将 文档 切 分 成 极 性 转移 和 非 极 性 
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转移 两 个 部 分 , 分 别 表示 成 两 个 词 袋 , 通过 不 同 的 策略 组 合 两 个 词 袋 的 分 类 结果 。[Li et 
al., 2010] 进一步 提出 了 一 种 基于 特征 选择 的 情感 转移 检测 算法 。[Orimaye et al., 2012] 
等 提出 了 一 种 句 间 极 性 转移 检测 算法 , 仅 利 用 情感 连贯 的 句子 进行 情感 分 类 。 [Xia et al., 
2016] 将 极 性 转移 现象 分 为 显 式 极 性 转移 和 隐 式 极 性 转移 两 种 情况 ,前 者 包括 否定 和 转 
折 等 显 式 语言 结构 , 后 者 主要 指 隐 式 的 句 间 情 感 不 连贯 现象 。 基于 这 种 考虑 ,他 们 提出 
了 一 种 基于 规则 的 显 式 极 性 转移 检测 方法 和 基于 统计 的 隐 式 极 性 转移 检测 方法 。 对 于 不 
同类 型 的 极 性 转移 采取 不 同 的 预 处 理 方法 ,如 对 和 否定 部 分 的 句子 进行 反 义 替换 ， 最 后 对 
不 同 部 分 的 文本 进行 集成 学 习 以 得 到 整个 文档 的 情感 。 

[Xia et al., 2013b; Xia et al., 2015a] 提出 了 对 偶 情 感 分 析 (dual sentiment analysis, 
DSA) 模型 解决 情感 分 析 中 的 极 性 转移 问题 。 该 模型 利用 反 义 句 情感 极 性 反 转 的 特点 
提出 了 一 种 数据 扩充 技术 , 将 原始 评论 翻转 为 反 义 评论 (训练 样本 同时 反 转 其 情感 极 
性 ), 原始 评论 和 反 义 评论 由 一 对 词 袋 (对 偶 词 袋 ) 表示 , 在 此 基础 上 提出 了 一 种 对 偶 
训练 算法 和 对 偶 预 测算 法 , 在 情感 分 析 过 程 中 同时 考虑 正 反 两 方面 的 因素 。 文本 在 反 转 
的 过 程 中 消除 了 否定 等 极 性 转移 结构 ， 因 此 能 够 较 好 地 抑制 极 性 转移 问题 。[Xia et al., 
2015b] 进一步 将 对 偶 情感 分 析 从 监督 机 器 学 习 推广 到 半 监 督 机 器 学 习 , 提出 了 一 种 基于 
对 偶 视角 联合 训练 的 半 监 督 情 感 分 类 方法 。 

[Qian et al., 2017] 在 深度 学 习 框 架 下 提出 了 一 种 情感 极 性 转移 问题 的 解决 方法 ， 该 
文 提出 了 语言 正则 化 的 LSTM (linguistically regularized LSTMs), 利用 LSTM 从 右 到 
左 对 句子 进行 建 模 , 预测 每 个 词 的 情感 分 布 , 并 通过 正则 化 的 方式 引入 情感 词 、 否 定 词 、 
强度 词 等 语言 学 信息 作为 约束 条 件 , 优化 学 习 得 到 语言 学 相关 的 文本 表示 ,以 增强 句子 
情感 分 类 的 性 能 , 在 MR 和 SST 数据 集中 证 明了 该 方法 的 有 效 性 。 


7.6.2 ”领域 适应 问题 


在 统计 机 器 学 习 任 务 中 , 一 个 领域 的 学 习 过 程 通常 是 基于 该 领域 大 量 标 注 样 本 训练 
实现 的 , 并 且 要 求 测试 数据 与 训练 数据 服从 相同 的 分 布 。 因此 , 统计 机 器 学 习 常常 存在 
领域 依赖 问题 即 在 某 一 领域 (我 们 称 之 为 源 领域 ) 标注 样本 上 学 习 得 到 的 分 类 器 通常 
只 在 相同 领域 的 测试 样本 上 表现 较 好 , 换 到 其 他 领域 (我 们 称 之 为 目标 领域 ), 尤其 是 目 
标 领 域 与 源 领域 的 分 布 相差 较 大 时 , 算法 性 能 会 大 打折 扣 。 这 一 领域 依赖 问题 在 情感 分 
析 任 务 中 表现 得 尤为 突出 。 针 对 这 一 问题 “领域 适应 学 习 ”( 在 机 器 学 习 领 域 也 称 为 “ 迁 
移 学 习 ”) 成 为 相关 领域 近年 来 的 研究 热点 。 

领域 适应 学 习 研 究 的 内 容 是 在 训练 样本 和 测试 样本 来 自 不 同 领域 的 情况 下 ， 如何 利 
用 测试 领域 的 大 量 非 标注 语 料 帮助 训练 一 个 适应 的 分 类 器 。 领域 适 应 问题 在 情感 文本 分 
类 任务 中 有 非常 重要 的 意义 。 例 如, 在 已 有 和 餐馆 评论 的 标注 样本 和 电子 产品 评论 的 非 标 
注 样 本 的 情况 下 , 领域 适应 的 目标 就 是 利用 这 些 样本 训练 一 个 能 够 对 电子 产品 评论 进行 
有 效 分 类 的 模型 。 

[Aue and Gamon, 2005] 首先 在 情感 分 析 任务 中 提出 了 领域 适应 问题 ， 他 们 利用 
EM 算法 同时 对 源 领域 的 标注 样本 和 目标 领域 的 无 标注 样本 进行 训练 , 但 是 效果 并 
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不 理想 。[Jiang and Zhai, 2007] 对 领域 适应 问题 进行 了 分 析 , 提出 了 基于 实例 的 适 
应 (instance adaptation) 和 基于 标签 的 适应 (labeling adaptation) 两 类 方法 。 文献 [Pan 
and Yang, 2010] 将 迁移 学 习 划分 为 基于 实例 的 迁移 、 基 于 特征 表示 的 迁移 和 基于 模型 
参数 的 迁移 三 种 情况 。 


基于 特征 表示 的 迁移 学 习 算法 通常 基于 源 领域 的 标注 数据 和 目标 领域 的 大 量 无 标注 
数据 (或 少量 标注 数据 ) 找到 一 种 适合 目标 领域 的 特征 表示 方法 , 并 利用 新 的 特征 表示 
进行 分 类 建 模 。[Blitzer et al., 2007] 提出 的 结构 相关 性 学 习 (structure correspondence 
learning, SCL) 算法 是 该 领域 的 代表 性 工作 。SCL 方法 首先 定义 了 一 些 枢 轴 特征 (pivot 
feature) 和 非 枢 轴 特 征 (non-pivot feature),， 然 后 学 习 两 种 特征 空间 之 间 的 映射 矩阵 ,再 
利用 SVD 分 解 获 取 映 射 矩阵 的 主 成 分 子 空间 ,最 后 将 非 枢 轴 特征 在 映射 矩阵 子 空间 上 
进行 投影 后 进行 情感 分 类 , 取得 了 很 好 的 效果 。 随 后 出 现 了 一 系列 类 似 的 研究 工作 , 其 
基本 思路 都 是 以 源 领域 和 目标 领域 的 共性 特征 作为 桥梁 , 分 别 关 联 各 自 领域 的 特有 特 
征 , 这 种 关联 关系 往往 通过 特征 之 间 的 同 现 程 度 (相关 性 ) 衡量 。 基 于 这 些 同 现 信息 , 利 
用 子 空间 方法 将 源 领 域 和 目标 领域 的 特征 映射 到 同一 个 子 空间 上 , 最 后 在 子 空间 中 进 
行 分 类 。[Pan et al., 2011] 和 [Pan et al., 2010] 提出 了 两 种 标签 迁移 的 算法 : 迁移 主 成 
分 分 析 (transfer component analysis, TCA) 和 谐 特征 对 齐 (spectral feature alignment, 
SFA)。 这 两 种 方法 分 别 利用 主 成 分 分 析 和 谱 聚 类 的 思想 确定 源 领域 和 目标 领域 的 关联 
关系 ,并 构建 目标 领域 的 特征 表示 。[Xia and Zong, 2011] 分 析 认 为 , 不 同 词性 的 特征 
具有 不 同 的 领域 独立 性 ,如 形容 词 、 副 词 的 领域 变化 较 小 , 而 名 词 的 领域 变化 较 大 , 依 
据 该 特性 划分 特征 子 集 , 在 源 领域 训练 基 分 类 器 , 利用 集成 学 习 实现 特征 权重 的 二 次 分 
配 ， 从 而 构造 目标 领域 的 新 的 标记 函数 。 近 年 来 , 出 现 了 一 系列 基于 神经 网 络 的 迁移 学 
习 算 法 , 其 本 质 思 想 与 SCL 类似, 通过 构建 一 些 领域 独立 的 辅助 任务 作为 关联 源 领域 和 
目标 领域 特有 特征 的 桥梁 ,然后 利用 神经 网 络 对 辅助 任务 进行 优化 ,将 两 个 领域 的 特征 
映射 到 同一 个 子 空间 后 进行 情感 分 类 。[Yu and Jiang, 2016] 首先 设计 了 两 种 辅助 任务 ， 
即 利用 非 枢 轴 特 征 (non-pivot feature) 来 分 别 预测 正面 极 性 的 枢 轴 特征 (positive pivot 
feature) 和 负面 极 性 的 枢 轴 特征 (negative pivot feature), 然后 提出 将 非 枢 轴 特征 和 原 
始 特征 作为 一 对 输入 ,使 用 双 通 道 卷 积 神经 网 络 模型 (bi-channel CNN) 对 辅助 任务 和 
情感 分 类 主任 务 进行 联合 训练 的 方式 , 将 非 枢 轴 特 征 和 原始 特征 分 别 映射 到 两 个 不 同 的 
子 空间 , 并 将 两 个 子 空间 连接 起 来 进行 情感 分 类 。[Ding et al., 2017] 和 [Li et al., 2017c] 
分 别 将 基于 传统 规则 方法 的 预测 标签 以 及 对 抗 网 络 中 的 领域 判别 器 作为 辅助 任务 ， 然 
后 分 别 使 用 长 短期 记忆 模型 (STM) 和 记忆 网 络 (Memory Network) 进行 辅助 任务 和 
主任 务 的 联合 训练 。 随 后 ，[Li et al., 2018] 提出 将 [Yu and Jiang, 2016] 以 及 [Li et al., 
2017c] 中 的 辅助 任务 结合 起 来 , 利用 层级 注意 力 网 络 (hierarchical attention network) 
进行 多 任务 学 习 , 取得 了 目前 基于 特征 表示 迁移 学 习 方法 的 最 好 效果 。 


基于 模型 参数 的 迁移 方法 假设 源 领域 和 目标 领域 的 模型 参数 具有 相同 的 先 验 分 布 ， 
在 模型 优化 时 利用 共同 的 先 验 作 为 约束 条 件 ， 从 而 实现 两 个 领域 分 类 知识 的 迁移 。[Xue 
et al., 2008] 提出 了 基于 PLSA 模型 的 领域 适应 方法 ,设计 了 一 个 包含 源 领域 和 目标 领 
域 的 主题 桥接 的 PLSA 模型 (topic-bridged PLSA)。 这 种 方法 假设 图 模型 结构 中 源 领域 


7.7 进一步 阅读 147 


与 目标 领域 共享 一 个 p(zlw), 在 利用 EM 算法 对 模型 进行 优化 时 体现 上 述 共享 参数 , 在 
跨 领 域 文本 分 类 任务 中 进行 了 验证 。[Li et al., 2009b] 将 单 领 域 的 非 负 矩阵 分 解 扩展 至 
领域 适应 问题 上 , 对 源 领 域 和 目标 领域 分 别 进行 了 非 负 算 阵 分 解 ， 以 源 领域 和 目标 领域 
共享 同一 个 p(wlc) 矩阵 作为 约束 条 件 , 实现 了 情感 分 类 领域 知识 从 源 领 域 向 目标 领域 
的 迁移 。 该 文思 想 与 topic-bridged PLSA 模型 非常 类 似 , 所 用 的 非 负 和 矩阵 分 解 模型 与 
PLSA 模型 可 以 看 作 一 个 “ 子 空间 模型 -概率 模型 > 对。 

基于 实例 的 迁移 方法 在 利用 源 领 域 的 训练 样本 训练 分 类 器 时 ,考虑 训练 样本 与 目 
标 领 域 分 布 的 相似 程度 , 对 不 同 的 样本 赋予 不 同 的 权重 。 这 一 问题 归结 为 样本 选择 偏 
差 (sample selection bias) 问题 [Zadrozny, 2004]， 其 核心 是 概率 密度 比 的 估计 ， 即 需要 
计算 样本 在 目标 领域 和 源 领 域 出 现 的 概率 比 , 并 用 该 比值 衡量 源 领域 样本 在 目标 领域 中 
出 现 的 可 能 性 (也 可 以 理解 为 对 于 迁移 学 习 的 权重 ) 可 能 性 越 大 , 在 模型 训练 时 赋 
予 的 权重 越 大 ; 可 能 性 越 小 , 赋予 的 权重 也 越 小 。 这 一 概率 比 的 估计 非常 困难 ， 尽管 在 
机 器 学 习 领 域 提出 了 若干 理论 方法 [Shimodaira, 2000; Huang et al., 2007; Sugiyama et 
al., 2008; Bickel et al., 2009], 但 是 在 包括 情感 分 析 的 自然 语言 处 理 领 域 适应 任务 中 性 
能 很 不 稳定 。[Xia et al., 2013a] 提出 了 一 种 基于 正 例 和 无 标签 学 习 (positive unlabeled 
learning, PUL) 的 源 领 域 样本 与 目标 领域 分 布 的 相似 度 计 算 方法 ,把 源 领域 和 目标 领域 
的 样本 分 别 看 作 U-set 和 P-set， 先 从 源 领域 内 识别 一 部 分 可 靠 的 非 目 标 领域 样本 作为 
N-set， 然 后 基于 EM 建立 一 个 半 监 督 的 源 分 类 器 , 预测 每 个 源 领 域 样本 属于 目标 领域 的 
概率 ， 并 用 这 个 概率 作为 源 领域 样本 与 目标 领域 分 布 的 相似 性 度量 , 在 跨 领 域 情 感 分 类 
任务 上 取得 了 较 好 的 性 能 。[Xia et al., 2014] 提出 了 一 种 基于 Logistic 近似 的 源 领域 样 
本 与 目标 领域 分 布 的 相似 度 计 算 方 法 及 其 样本 选择 和 样本 加 权 的 领域 适应 方法 , 将 相似 
度 学 习 与 跨 领域 分 类 两 项 任务 结合 在 一 个 模型 里 , 取得 了 算法 性 能 的 进一步 提升 。[Xia 
et al., 2018] 进一步 分 析 了 实例 迁移 中 的 偏差 -方差 困境 (bias and variance dilemma) ， 
是 出 了 在 克服 样本 选择 偏差 的 同时 控制 样本 权重 方差 的 思想 , 提高 了 实例 迁移 算法 的 稳 
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一 方面 , 随 着 深度 学 习 的 不 断 发 展 和 更 新 , 更 多 新 型 的 深度 神经 网 络 方法 (CNN、 
RNN、 注 意 力 机 制 、 对 抗 生 成 网 络 等 ) 被 应 用 到 了 不 同 级 别 的 情感 分 析 和 观点 挖掘 诸多 
任务 上 。 这 些 工 作成 为 近 几 年 来 自然 语言 处 理 各 大 顶级 会 议 中 的 情感 分 析 与 观点 挖掘 领 
域 的 主流 。 此 外 , 还 出 现 了 基于 深度 神经 网 络 的 半 监 督 情感 分 类 、 类 别 不 平衡 情感 分 类 
和 跨 领域 、 跨 语言 情感 分 类 等 相关 研究 。 

另 一 方面 , 在 传统 的 情感 极 性 分 类 任务 之 外 , 还 逐渐 出 现 了 一 些 情绪 分 类 、 立 场 分 
类 等 广义 的 情感 分 析 任 务 。 

情绪 分 类 是 在 情感 分 类 的 基础 上 ， 从 人 类 的 心理 学 角度 出 发 , 多 维度 地 描述 人 的 情 
绪 态 度 。 根据 英国 心理 学 家 Parrott 提出 的 情绪 轮 模型 [Parrot, 2001], 文本 情绪 分 类 通 
常 分 为 : 喜爱 (love)、 高 兴 (Goy), EF (surprise). 148 Canger)、 悲 伤 (sadness) AZ 
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TK (fear) 六 类 。 情绪 分 类 的 方法 类 似 于 文档 级 或 消息 级 的 情感 分 类 , 主要 分 为 基于 词典 
的 规则 方法 、 传 统 机 器 学 习 方法 和 深度 学 习 方 法 。 此 外 , 针对 微 博 的 情绪 分 类 工作 中 ， 
常常 使 用 表情 符 或 哈 希 标 签 对 微 博 进行 自然 标注 以 构成 训练 语 料 ， 然 后 进行 情绪 分 类 。 
近年 来 在 情绪 分 类 基础 上 还 衍生 出 了 一 类 情绪 原因 抽取 Cemotion cause extraction) 任 
务 , 其 目标 在 于 识别 和 抽取 文本 中 情绪 表达 所 对 应 的 原因 [Gui et al., 2016; Ding et al., 
2019; Xia et al., 2019; Xia and Ding, 2019]. 

近年 来 , 还 出 现 了 一 类 检测 文本 对 于 给 定 具体 目标 target) 所持 有 的 立场 的 任务 ， 
也 属于 情感 分 析 的 研究 范畴 。 立场 分 类 与 传统 情感 分 类 任务 的 不 同 之 处 是 : 后 者 的 目标 
是 是 判别 文本 表达 的 情感 极 性 (如 正面 、 负 面 、 中 性 ), 而 前 者 的 目标 是 判别 对 给 定 目 标 
所 持 有 的 立场 (支持 、 反 对 、 质 疑 等 )。 与 属性 级 情感 分 类 任务 相 比 ,立场 分 类 中 给 定 的 
目标 一 般 是 一 个 话题 或 者 一 个 事件 ， 是 一 个 相对 概括 的 抽样 概念 , 而 属性 级 情感 分 类 的 
目标 通常 是 细 粒 度 的 显 式 评价 对 象 。SenEval 2016 发 起 了 一 项 针对 给 定 话题 的 Twitter 
立场 分 类 的 评测 , 包含 两 个 子 任务 , 其 中 , 任务 A 是 有 监督 的 立场 检测 , 任务 给 定 了 包含 
5 个 话题 的 标注 语 料 , 任务 B 是 弱 监 督 的 立场 检测 。 立场 的 类 别 包 含 支 持 、 反对、 未 知 三 
种 , 评估 的 标准 为 支持 和 反对 两 个 类 别 的 宏 平均 {EL [Mohammad et al., 2016]. 在 参加 
评测 的 队伍 中 , 有 3 支队 伍 利用 了 除 给 定语 料 之 外 的 未 标注 数据 ,9 支队 伍 使 用 了 词典 
入 ,其 中 包括 成 绩 最 好 的 3 个 系统 ， 有 7 支队 伍 利 用 了 公开 的 情感 和 表情 词典 ， 他 们 所 
采用 的 方法 除了 传统 的 机 器 学 习 模型 ， 也 有 深度 神经 网 络 方法 , 如 CNN, RNN, LSTM 
等 。 NLPCC 2016 在 中 文 微 博 数据 上 组 织 了 类 似 的 评测 任务 。 

[Pang and Lee, 2008; Liu, 2012; Liu, 2015] 对 传统 的 情感 分 析 和 观点 挖掘 相关 研究 
和 更 多 细 化 的 情感 分 析 任务 做 了 全 面 的 综述 。 
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8.1 概 述 


随 着 互联 网 和 社交 媒体 技术 的 快速 发 展 , 信息 采集 、 传 播 和 共享 的 速度 及 规模 达到 
了 空前 的 水 平 ,， 人 们 一 方面 享受 着 互联 网 上 丰富 的 信息 所 带 来 的 便利 ， 另 一 方面 也 在 忍 
受 着 “信息 爆炸 ”所 带 来 的 困扰 。 由 于 网 络 信息 数量 巨大 , 一 方面 人 们 难以 从 浩 若 烟 海 的 
信息 海洋 中 迅速 而 准确 地 获取 自己 所 需要 的 信息 , 另 一 方面 与 一 个 话题 相关 的 信息 往往 
孤立 地 分 散在 很 多 不 同 的 时 间 和 地 点 , 仅仅 通过 这 些 孤 立 的 信息 人 们 难以 对 话题 做 到 全 
面 的 把 握 。 面 对 这 些 海量 、 多 源 、 多 样 化 的 信息 , 迫切 需要 一 种 技术 , 能 够 基于 话题 或 事 
件 对 信息 进行 有 效 的 组 织 和 汇总 , 并 快速 、 准确 地 发 现 和 追踪 用 户 感 兴趣 的 话题 。 

话题 检测 与 跟踪 (topic detection and tracking, TDT) 技术 正 是 在 上 述 背景 下 产生 
并 发 展 起 来 的 。 话 题 检测 与 跟踪 的 目标 就 是 帮助 人 们 应 对 信息 爆炸 问题 ， 自 动 识别 新 闻 
媒体 和 社交 媒体 数据 流 中 的 新 话题 , 对 已 知 话题 进行 跟踪 ， 帮 助 用 户 从 整体 上 了 解 话题 
的 发 展 与 演变 。 通过 话题 发 现 与 跟踪 , 将 互联 网 上 分 散 的 信息 进行 有 效 的 汇集 和 组 织 ， 
帮助 用 户 发 现 与 话题 相关 的 各 种 因素 之 问 的 关系 ,从 整体 上 了 解 话题 的 全 部 细节 以 及 该 
话题 与 其 他 话题 之 间 的 关系 。 

话题 检测 与 跟踪 技术 可 以 把 信息 按 话题 分 类 组 织 , 将 特定 时 间 段 内 最 活跃 的 话题 智 
能 地 推送 给 用 户 , 并 按照 用 户 的 需求 跟踪 话题 的 动态 演化 过 程 ， 从 而 为 用 户 有 效 地 掌握 
社会 动向 和 重大 事件 提供 极 大 的 便利 。 与 信息 检索 、 信息 抽取 和 文本 摘要 等 任务 相 比 ， 
话题 检测 与 跟踪 更 加 强调 信息 发 现 、 跟 踪 和 整合 的 能 力 。 此 外 , 话题 检测 与 跟踪 技术 研 
究 的 对 象 为 具有 时 序 关 系 的 文本 数据 流 , 而 非 静态 的 、 封 闭 的 文本 集合 。 话题 检测 与 跟 
踪 技 术 可 以 用 来 监控 各 种 信息 源 ， 及 时 发 现 信 息 源 中 新 的 话题 , 并 对 话题 的 来 龙 去 脉 进 
行 历史 性 的 研究 , 在 信息 安全 、 和 与 情 分 析 、 社 会 调查 等 领域 都 有 广阔 的 应 用 前 景 。 

传统 的 TDT 技术 是 以 评测 驱动 的 方式 建立 并 发 展 起 来 的 。 评 测 活动 具有 研究 任务 
明确 、 测评 数 据 和 评测 标准 公开 等 特点 , 同时 也 为 TDT 研究 提供 了 一 个 技术 交流 和 共 
享 的 平台 , 促进 了 TDT 研究 的 发 展 。 

TDT 研究 最 初 由 美国 国防 高 级 研究 计划 署 (DARPA) 于 1996 年 提出 , 他 们 计划 开 
发 一 种 新 技术 , 在 没有 人 工 干预 的 情况 下 自动 判断 新 闻 数 据 流 的 主题 。 

1997 年 , 来 自 DARPA、 卡 内 基 - 梅 隆 大 学 (Carnegie Mellon University, CMU) 和 
马萨诸塞 大 学 (University of Massachusetts, UMass) 等 机 构 的 研究 者 们 开始 了 这 项 技 
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术 的 初步 研究 , 这 些 初 始 研究 后 来 被 称 作 TDT1997 或 TDT Pilot. 其 主要 研究 内 容 是 如 
何 从 数据 流 (文本 或 语音 ) 中 寻找 与 话题 相关 的 信息 , 包括 寻找 内 在 主题 一 致 的 片段 , 让 
系统 能 够 自动 判断 两 个 事件 的 分 界 ,并 自动 检测 新 事件 的 出 现 和 旧事 件 的 再 现 。 他 们 开 
展 了 一 些 基 础 性 的 研究 工作 [Allan et al., 1998a], 建立 了 话题 检测 与 跟踪 研究 的 预 研 语 
料 库 TDT Pilot Corpusl， 该 语 料 由 1994 年 7 月 1 日 到 1995 年 6 月 30 日 期 间 的 路 透 
社 新 闻 专 线 和 CNN 广播 稿 的 16000 篇 新 闻 报 道 构成 。 对 于 话题 检测 与 跟踪 性 能 的 评估 ， 
他 们 首次 提出 了 漏 报 率 和 误 报 率 的 评估 指标 , 并 且 使 用 了 识别 错误 权衡 图 (detection 
error tradeoff plot, DET) 直观 地 展现 话题 检测 与 跟踪 系统 发 生 错 误 的 情况 。 

从 1998 年 开始 , 在 DARPA 支持 下 美国 国家 标准 技术 研究 所 (NIST) 开始 每 年 举 
办 TDT 相关 技术 评测 会 议 。 该 评测 会 议 作 为 DARPA 资助 的 跨 语言 信息 检测 、 抽 取 和 
摘要 项 目 TIDES (Translingual Information Detection, Extraction and Summarization) 
支持 下 的 两 个 系列 会 议 之 一 〈 另 一 个 是 文本 检索 会 议 TREC), 得 到 了 越 来 越 多 的 关注 ， 
许多 著名 大 学 、 公 司 和 研究 机 构 都 积极 参与 ,如 IBM Watson 研究 中 心 、BBN 公司 、 卡 
内 基 - 梅 隆 大 学 、 马 萨 诸 塞 大 学 、 宾 州 大 学 、 马 里 兰 大 学 和 龙 系统 公司 等 。TDT1998 是 首 
次 公开 的 评测 ， 其 评测 任务 包括 新 闻 报 道 切 分 、 话 题 检测 和 话题 跟踪 ， 首 次 引入 了 汉语 
语 料 。 TDT1999 新 增 了 两 项 任务 : 首次 报道 识别 (first story detection, FSD) 和 关联 检 
M dink detection, LD). 

2002 年 秋季 召开 的 第 五 次 会 议 TDT2002 对 语料库 进行 了 更 新 , 在 TDT Pilot 
Corpus 的 基础 上 引入 了 阿拉 伯 语 语 料 ， 同 时 将 文本 过 滤 、 语 音 识别 、 机 器 翻译 和 文本 分 
割 等 自然 语言 处 理 技 术 列 入 研究 内 容 。 

由 于 实际 应 用 中 大 部 分 实例 片段 本 身 具 有 良好 的 可 分 性 ，TDT2004 取消 了 新 闻 
报道 切 分 任务 。 与 此 同时 ， 新 增 了 两 项 任务 ， 分 别 为 有 监督 的 自 适应 话题 追踪 和 层次 
话题 检测 任务 。 话 题 检测 与 跟踪 评测 会 议 连 续 举 办 了 七 届 ，TDT2004 为 最 后 一 次 评测 
会 议 , 但 TDT 语 料 依旧 是 公开 的 , 研究 人 员 可 以 通过 语言 数据 联盟 (Linguistic Data 
Consortium, LDC) 2 获取 TDT 相关 评测 及 实验 的 数据 。 

近年 来 , 互联 网 信息 分 享 和 传播 的 方式 逐渐 从 以 网 站 媒体 为 代表 的 Web 1.0 时 代 走 
进 了 以 社交 媒体 为 代表 的 Web 2.0 时 代 。 以 Twitter、Facebook、 微 博 、 微 信 为 代表 的 社 
交 媒 体 逐 渐 发 展 成 为 人 们 讨论 时 事 、 交 换 信息 、 表 达观 点 的 重要 平台 。 社交 媒体 上 时 刻 
产生 着 大 量 用 户 参 与 的 关于 事件 、 人 物 、 产 品 等 内 容 的 数据 , 成 为 反映 真实 社会 的 一 面 
镜子 。 检测 和 跟踪 这 种 丰富 、 持续 、 海量 的 用 户 生成 的 数据 流 可 以 产生 前 所 未 有 、 富 含 价 
值 的 信息 。 例如 , 通过 使 用 社交 媒体 话题 检测 与 跟踪 技术 , 用 户 感 兴趣 的 信息 可 以 从 海 
量 、 杂 乱 无 章 的 各 类 信息 中 被 挑选 出 来 ,从 而 了 解 社 会 上 正在 发 生 的 热点 事件 , 并 且 很 
容易 地 跟踪 事件 的 来 龙 去 脉 。 公 司 可 以 监测 与 之 相关 的 热点 话题 和 突 发 事件 ， 从 而 及 时 
调整 策略 ， 提 高 竞争 能 力 。 政府 可 以 监督 社会 秩序 , 监视 恐怖 行动 了解 社会 与 情 ， 从 而 
促进 社会 稳定 。 所 以 , 研究 社交 媒体 话题 检测 与 跟踪 技术 具有 十 分 重要 的 现实 意义 。 但 
是 , 社交 媒体 文本 以 其 语言 简短 、 形 式 丰 富 、 话 题 广泛 、 更 新 迅速 、 数据 海 量 、 存 在 大 量 

1https://catalog.ldc.upenn.edu/LDC98T25 
2https://www.ldc.upenn.edu/ 


8.2 术语 与 任务 151 


非 规范 语言 现象 等 特点 , 给 话题 检测 与 跟踪 技术 的 研究 带 来 了 新 的 问题 和 挑战 。 

已 有 学 者 骆 卫 华 等 ， 2003; 洪 宇 等 ,2007] 对 传统 的 话题 检测 与 跟踪 技术 研究 情 
况 进行 了 综述 。 以 下 首先 介绍 话题 检测 与 跟踪 技术 研究 中 的 术语 和 任务 , 然后 从 表示 、 
相似 度 计 算 、 检测 和 跟踪 四 个 方面 详细 回顾 传统 的 话题 检测 与 跟踪 技术 , 最 后 沿 着 话题 
检测 与 跟踪 技术 从 传统 媒体 向 社交 媒体 的 延 拓 ， 以 及 社交 媒体 突 发 话题 的 检测 这 两 个 方 
向 , 介绍 社交 媒体 话题 检测 与 跟踪 技术 的 研究 方法 。 


8.2 ”术语 与 任务 
8.2.1 术语 


TDT 的 目标 是 从 文本 数据 流 中 自动 发 现 话题 并 把 话题 相关 的 内 容 联系 在 一 起 , 涉 
及 到 事件 、 话题 、 报 道 和 主题 等 概念 。 为 了 区 分 这 几 个 概念 与 传统 意义 的 差别 , 以 下 首先 
介绍 这 些 概念 在 TDT 研究 中 的 定义 。 

事件 (event): 在 TDT 研究 中 , 事件 指 的 是 由 某 些 原因 、 条 件 引起 , 发 生 在 特定 时 
间 、 地 点 ,涉及 某 些 对 象 ( 人 或 物 )， 并 可 能 伴随 某 些 必然 结果 的 活动 或 现象 。 通 常 意义 
上 的 事件 一 般 是 一 个 宏观 的 “故事 ”或 者 围绕 某 一 主题 的 一 系列 故事 , 包含 事件 发 生 的 
起 因 、 时 间 、 地 点 、 过 程 和 结果 等 一 系列 详细 的 描述 。TDT 中 的 一 个 事件 通常 是 由 有 限 
儿 个 谓词 描述 的 具体 活动 或 现象 。 如 “2016 年 11 月 8 日 美国 总 统 选举 , 特 朗 普 击 败 希 
拉 里 ,当选 第 45 任 美 国 总 统 ” 是 TDT 中 的 一 个 事件 , 它 具 备 上 述 时 间 、 地 点 、 人 物 等 
具体 属性 。 

话题 (topic): 在 最 初 的 TDT Pilot 研究 中 话题 即 定义 为 事件 。 从 TDT1998 开始 ， 
话题 被 赋予 了 更 广泛 的 含义 , 它 不 仅 包含 由 最 初 事件 引起 或 导致 发 生 的 后 续 事件 , 同时 
还 包含 与 其 直接 相关 的 其 他 事件 或 活动 。 因此, 可 以 认为 话题 是 一 个 核心 事件 以 及 与 之 
直接 相关 的 事件 或 活动 , 或 者 简单 地 认为 话题 是 若干 对 某 事件 相关 报道 的 集合 。 例 如， 
“5。12 汶川 地 震 ” 是 一 个 话题 ,“2008 年 5 月 12 日 中 国 汶川 发 生 8.2 级 强烈 地 震 ” 是 该 
话题 的 核心 事件 , 随后 的 抗震 救灾 、 震 后 重建 等 活动 都 与 这 一 核心 事件 直接 相关 ， 因此 
它们 也 是 “5 "12 汶川 地 震 ” 这 一 话题 的 组 成 部 分 。TDT 的 研究 起 源 于 早期 的 事件 检测 
与 跟踪 (event detection and tracking, EDT)。 与 EDT 相 比 , TDT 检测 与 跟踪 的 对 象 从 
特定 时 间 和 地 点 发 生 的 事件 扩展 为 具备 更 多 相关 性 外 延 的 话题 ,相应 的 理论 与 应 用 研究 
也 同时 从 传统 对 于 事件 的 识别 跨越 到 包含 事件 及 其 后 续 相 关 报 道 的 话题 检测 与 跟踪 。 
主题 (subject): TDT 中 的 主题 是 对 一 类 事件 或 话题 的 概括 , 它 涵盖 多 个 类 似 的 具 
体 事 件 , 或 者 根本 不 涉及 任何 具体 的 事件 , 主题 比 话题 的 含义 更 为 广泛 。 如 “地 震 灾 害 ” 
是 一 个 主题 , 而 “5 "12 汶川 地 震 ” 则 是 该 主题 下 的 一 个 具体 的 话题 。 需 要 注意 的 是 , 语 
言 学 中 的 “话题 ”含义 上 与 TDT 中 的 “主题 ”更 加 类 似 , 表示 多 个 类 似 事件 的 概括 ， 而 
不 涉及 具体 事件 , 而 TDT 中 的 “话题 ” 涉及 具体 的 事件 及 其 相关 活动 。 同 时 ， 主 题 模 
型 (topic model) 中 的 “主题 (topic)” 与 TDT 研究 中 的 “主题 (subject)” 和 “话题 GR 
文 也 为 topic) ”概念 也 不 相同 。 在 TDT 研究 中 , “话题 ”或 “主题 ”都 是 描述 事件 的 概念 ， 
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表现 为 一 系列 事件 或 对 事件 的 概括 ; 而 主题 模型 中 的 “主题 ” 则 表示 文本 中 词 项 所 蕴含 
的 潜 层 语义 , 表现 为 一 系列 语义 接近 的 词 项 。 

报道 (story): 指 新 闻 专 线 的 文章 或 者 是 新 闻 电 视 广 播 中 的 片段 。 通常 情况 下 , 一 篇 
报道 只 围绕 一 个 话题 展开 , 但 是 也 有 些 报道 中 讨论 多 个 话题 。 


8.2.2 ”任务 


NIST 将 TDT 划分 成 以 下 五 项 基础 任务 。 

(1) 报道 切 分 

报道 切 分 (story segmentation, SS) 任务 的 目标 是 找 出 新 闻 报 道中 所 有 的 话题 及 其 
边界 ,把 新 闻 报 道 流 切 分 成 结构 完整 、 话 题 独立 的 多 个 报道 , 如 图 8.1 所 示 。 例如 , 给 定 
一 段 包 括 时 政 新 闻 、 体 育 赛事 、 金 融 财 经 等 多 个 话题 的 新 闻 广 播 ， 一 个 报道 切 分 系统 需 
要 将 这 段 新 闻 报道 切 分 成 多 个 不 同 话题 的 片段 。 报道 切 分 主要 是 面向 新 闻 广 播 类 的 报 
道 , 其 数据 流 包含 两 种 方式 : 一 是 直接 对 音频 信号 进行 切 分 ; 二 是 先 将 音频 信号 翻录 成 
文本 数据 流 , 然后 再 进行 切 分 。 由 于 在 实际 情况 中 大 部 分 实例 片段 本 身 具备 良好 的 区 分 
PE, TDT2004 撤销 了 该 任务 。 


se 
音频 或 文本 数据 流 
aoa H 非 报道 
图 8.1 TDT 中 的 报道 切 分 任务 示意 图 


(2) 首次 报道 识别 

首次 报道 识别 (first story detection, FSD) 任务 的 目标 是 从 具有 时 间 顺 序 的 新 闻 报 
道 流 中 自动 检测 出 首次 讨论 某 个 话题 的 报道 , 如 图 8.2 所 示 。 该 任务 需要 对 每 个 报道 判 
断 是 否 讨论 了 一 个 新 的 话题 , 因此 被 看 成 是 话题 检测 的 基础 也 被 称 作 话 题 检测 的 透明 
测试 。 TDT2004 将 FSD 改名 为 新 事件 检测 (new event detection, NED) 。 


对 两 个 话题 的 首次 报道 


对 两 个 话题 的 后 续 报道 
图 8.2 TDT 中 的 首次 报道 识别 任务 


(3) 话题 检测 
话题 检测 (topic detection, TD) 任务 的 目标 是 在 不 给 定 话题 先 验 知识 的 条 件 下 , 检 


8.2 术语 与 任务 153 


测 出 新 闻 数 据 流 中 的 话题 。FSD 输出 的 是 一 篇 报道 , 而 TD 输出 的 是 关于 某 一 话题 的 报 
WEA, 如 图 8.3 所 示 。TD 的 难点 在 于 事先 不 给 出 话题 的 先 验 知识 , 因此 要 求 TD 模型 
不 能 独立 于 某 一 确定 的 话题 , 而 要 适用 于 任何 话题 。 

尽管 一 篇 报道 通常 只 围绕 一 个 话题 展开 , 但 是 也 有 一 些 报道 同时 涉及 多 个 话题 ， 
并 且 这 些 话题 之 间 具 有 层次 关系 。 针 对 这 一 问题 , TDT2004 首次 定义 了 层次 话题 检 
测 (hierarchical topic detection, HTD) 任务 , 该 任务 将 话题 的 组 织 形式 从 FSD 和 TD 
中 的 平行 关系 转变 成 为 了 层次 结构 。 


话题 检测 


话题 2 
图 8.3 TDT 中 的 话题 检测 任务 


(4) 话题 跟踪 

话题 跟踪 (topic tracking, TT) 任务 的 目标 是 跟踪 已 知 话题 的 后 续 报 道 ， 即 要 求 在 
给 定 与 某 个 话题 相关 的 一 则 或 多 则 报道 条 件 下 , 检测 出 数据 流 中 与 该 话题 相关 的 后 续 报 
道 , 如 图 8.4 所 示 。 其 中 待 测 话题 并 非 由 问 询 指定 ， 而 是 通过 若干 相关 报道 描述 性 地 给 
th CNIST 评测 中 通常 为 每 个 话题 提供 1~4 篇 报道 )。 


话题 跟踪 


题 已 知 
知 
知 


Bik 
SES 
Bk 


训练 集 = 


| $ eee| | | | 
Lace 
图 8.4 TDT 中 的 话题 跟踪 任务 


(5) 关联 检测 

关联 检测 Cink detection, LD) 的 目标 是 判断 两 篇 报道 是 否 属于 同一 话题 , 如 图 8.5 
所 示 。 与 TD 任务 类 似 ， 该 任务 不 提供 先 验 知识 , 因此 LD 系统 必须 在 没有 明确 话题 作 
为 参照 的 情况 下 ,建立 不 依赖 于 特定 报道 的 话题 关联 性 检测 模型 。 与 其 他 TDT 任务 不 
同 的 是 ,关联 检测 往往 不 直接 作为 一 项 应 用 , 而 是 作为 一 门 重要 的 核心 技术 , 广泛 运用 
在 其 他 TDT 任务 中 , 如 话题 检测 和 话题 跟踪 。 一 个 好 的 关联 检测 可 以 提高 其 他 TDT 任 
务 的 性 能 。 
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关联 检测 


— E ? = 


图 8.5 TDT 中 的 关联 检测 任务 


总 体 而 言 , 话题 检测 与 跟踪 本 质 上 是 研究 报道 和 话题 之 间 的 关系 , 技术 上 主要 解决 
以 下 问题 : 话题 和 报道 的 表示 问题 ; @ 话 题 和 报道 的 相似 度 计算 问题 , 图 话题 和 报道 
的 聚 类 问题 ; @ 话 题 和 报道 的 分 类 问题 , K 8.1 列 出 了 TDT 中 的 主要 任务 所 涉及 的 文 
本 挖掘 基础 技术 。 本 书 第 3 章 和 5.2 节 已 经 分 别 对 文本 表示 和 文本 相似 度 计算 方法 进行 
了 详细 的 介绍 , 因此 下 文 对 报道 与 话题 的 表示 和 相似 度 计 算 方法 只 作 简要 介绍 , 然后 主 
要 介绍 TDT 的 话题 检测 和 话题 跟踪 任务 。 


表 8.1 TDT 中 的 主要 任务 所 涉及 的 文本 挖掘 基础 


主要 任务 方法 基础 
话题 /报道 的 表示 文本 表示 
关联 检测 文本 相似 度 计算 
话题 检测 文本 聚 类 
话题 跟踪 文本 分 类 


8.3 ”报道 或 话题 的 表示 与 相似 性 计算 


在 文本 表示 之 前 , 通常 需要 对 报道 文本 进行 预 处 理 , 常见 的 预 处 理 包括 词汇 化 (中 
文 则 需 进行 中 文 分 词 )、 过 滤 停 用 词 、 提 取 词 干 , 等 等 。 其 次 , 考虑 采用 何 种 模型 表示 话 
题 和 报道 。 常用 的 模型 分 为 向 量 空间 模型 和 语言 模型 。 

向量 空间 模型 是 话题 发 现 与 跟踪 任务 中 使 用 最 为 普遍 的 文本 表示 模型 之 一 , 它 将 
一 则 报道 视 为 一 篇 文档 , 忽视 文档 中 词 项 的 顺序 关系 , 一 个 向 量 表 示 一 篇 文档 , 词 项 的 
权重 通常 采用 词 频 - 倒 文档 频率 (TF-IDF) 法 及 其 变 体 , 详细 介绍 见 3.1 节 。 由 于 向 量 
空间 模型 丢失 了 词 序 、 句法 和 部 分 语义 信息 ,常常 导致 模型 在 文本 相似 度 计算 、 聚 类 、 
分 类 等 建 模 任务 中 性 能 受 限 ， 如 该 模型 很 难 区 分 两 个 不 同 的 “飞机 失事 ”话题 。[Allan 
et al., 2000] 等 指出 了 文本 相似 度 计算 方法 的 上 限 , 研究 者 们 试图 通过 信息 抽取 和 特 
征 工程 的 方法 提高 向 量 空间 模型 的 表示 能 力 ， 如 将 命名 实体 信息 [Kumaran and Allan, 
2004; Kumaran and Allan, 2005], 4W (who, what, when, where) 信息 [Kumaran and 
Allan, 2004] 和 语义 概念 信息 [Kumaran and Allan, 2004] 等 加 入 到 向 量 空间 中 ,以 提升 
TDT 任务 的 性 能 。 

报道 或 话题 的 相似 性 通常 包括 三 种 度量 指标 : 报道 与 报道 的 相似 度 、 报道 与 话题 的 
相似 度 、 话题 与 话题 的 相似 度 。 这 三 种 相似 度 与 5.2 节 所 述 的 两 个 文本 对 象 、 文 本 对 象 
与 文本 集合 、 两 个 文本 集合 之 间 的 相似 度 是 对 应 的 。 
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报道 与 报道 之 间 的 相似 度 在 话题 检测 与 跟踪 研究 中 也 称 作 关联 检测 任务 , 其 目标 是 
检测 随机 选择 的 两 篇 报道 是 否 论述 同一 个 话题 。 其 基本 做 法 是 : 首先 基于 向 量 空间 模型 
将 报道 表示 成 一 个 向 量 , 然后 使 用 余弦 距离 计算 报道 向 量 之 间 的 相似 度 , 最 后 将 相似 度 
与 阔 值 进行 比较 ,做 出 报道 是 否 相关 的 判断 。 如 果 相 似 度 大 于 设 定 的 阔 值 ， 就 判断 为 报 
道 相关 ,否则 判断 为 报道 不 相关 。 报道 之 间 的 相似 度 计 算 也 可 以 采用 传统 的 欧 氏 距离 、 
皮 埃 尔 逊 相关 系数 等 指标 度量 。 

一 篇 报道 和 一 个 话题 之 间 的 相关 性 , 可 以 转换 为 该 报道 与 构成 该 话题 的 全 部 报道 之 
间 相似 度 的 计算 问题 , 其 中 每 对 报道 之 间 的 相似 度 计算 都 是 一 次 关联 检测 的 过 程 。 有 些 
工作 将 话题 表示 为 一 个 话题 模型 (如 用 话题 下 所 有 报道 的 中 心 向 量 代表 该 话题 ), 从 而 将 
报道 与 话题 之 间 的 相似 度 计 算 转换 为 报道 与 中 心 向 量 之 间 的 相似 度 计算 问题 , 其 本 质 还 
是 报道 之 间 的 关联 检测 。 

马萨诸塞 大 学 (UMass) 的 研究 人 员 验 证 了 多 种 相似 度 计算 方法 , 包括 余弦 距离 、 加 
PORAN 语言 模型 和 Kullback-Leibler 散 度 , 在 TDT3 语 料 上 实验 的 结果 是 余弦 距离 在 
关联 检测 任务 中 的 性 能 最 好 [Allan et al., 2000]。 

还 有 一 类 方法 利用 语言 模型 进行 报道 表示 和 关联 检测 。 语言 模型 是 一 种 描述 自然 语 
言 的 生成 式 概率 模型 , 在 文本 挖掘 任务 中 得 到 了 广泛 使 用 。 如 果 用 随机 变量 C 和 5 分 别 
表示 话题 和 报道 , 根据 贝 叶 斯 公式 , 在 给 定 报道 5 的 条 件 下 话题 C 的 后 验 概率 已 (Cl5) 
与 话题 C 的 先 验 概率 和 在 话题 C 条 件 下 报道 S 的 条 件 概率 的 乘积 P(C)P(S|C) RIE 
-| 1 
oi P(C)P(SIC) 

P(S) 


假设 报道 S 中 的 词 项 志 在 给 定 话题 条 件 下 是 相互 独立 的 ， 则 


P(C|s) = x P(C) P(S|C) (8.1) 


P(C\S) x P (C) [[ P t0) (8.2) 


其 中 P(ti|C) 为 词 项 志 在 话题 C 中 出 现 的 概率 。 

语言 模型 还 提供 了 一 种 计算 报道 与 话题 (或 报道 与 报道 ) 之 间 相 似 度 的 方法 。 对 于 
已 有 不 同 话题 的 文本 集合 C; 可 以 用 一 元 语言 模型 表示 为 不 同 的 词 项 分 布 。 在 一 元 语言 
模型 假设 下 词 项 是 相互 独立 的 , 此 时 可 以 写成 : 


P (S|C;) = [| Plc) (8.3) 


JEP ti 表示 词 表 中 第 i 个 词 。 基 于 最 大 似 然 估 计 可 以 得 到 P(tilC), B t 在 5S 中 的 词 频 
数 除 以 S 中 的 词 项 总 数 。 

为 了 避免 由 于 数据 稀疏 问题 造成 P(ti|C) 出 现 零 概率 从 而 导致 P(SIC) = 0 的 情况 ， 
可 以 对 概率 进行 平滑 ,如 


Pamooth (ti|C) = AP (ti|C) + (1 — A) P (ti|GE) (8.4) 
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其 中 P(ti|GE) 为 词 项 去 在 通用 语 料 中 的 概率 估计 值 。TDT 任务 中 文档 是 按时 序 出 现 
的 , 新 的 文档 可 能 会 出 现 过 去 文档 中 未 曾 出 现 的 词 项 , 因此 基于 通用 语 料 估计 的 概率 是 
一 个 合理 的 先 验 知识 。 

对 于 一 个 新 出 现 的 报道 5, 计算 哪个 话题 Cj 最 可 能 产生 新 的 报道 3 可 以 用 公式 表 
达 为 : 


P(S|Cj) _ P(tilCj) P(ti|C;) 
P(S) “ll 


arg max = P(t) = argmaxlo |] P(t) (8.5) 
P(ti|C;) 
P(ti) 

如 果 将 一 篇 报道 也 看 作 是 一 个 词 项 的 分 布 , 那么 , 可 以 利用 分 布 间 相 似 度 的 度量 指 
ER (如 K-L 距离 ) 计算 报道 与 话题 之 间 的 相似 度 : 


因此 可 定义 D (5,0;) = > log 作为 报道 5 与 话题 Cj 之 间 的 相似 度 。 


P (ti|S) 
P(tilC) 


Dux (CIIS) = — > Pe (tilC) log (8.6) 


如 果 将 待 比较 的 两 篇 报道 S。 和 So 当 作 两 个 词 项 分 布 , 也 可 以 使 用 K-L 距离 进行 关联 
检测 。 同样 地 ，K-L 距离 也 可 以 度量 两 个 话题 之 间 的 相似 性 。 这些 方 法 在 [Lavrenko and 
Croft, 2001; Leek et al., 2002] 等 工作 中 得 到 了 应 用 。 


在 报道 或 话题 表示 和 相似 度 计算 的 基础 上 , 利用 聚 类 、 分 类 等 算法 就 可 以 解决 话题 
检测 与 跟踪 问题 。 


8.4 话题 检测 


话题 检测 的 目标 是 从 连续 的 报道 数据 流 中 检测 出 新 话题 或 此 前 没有 定义 的 话题 。 系 
统 对 于 话题 的 时 间 、 内 容 和 数量 等 信息 是 预先 未 知 的 , 也 没有 可 以 用 于 学 习 的 标注 样本 。 
因此 , 话题 检测 是 一 个 无 监督 的 学 习 任 务 , 通常 基于 聚 类 分 析 模 型 实现 。 大 部 分 的 话题 
检测 算法 可 以 看 作 是 对 文本 聚 类 算法 的 改进 和 延伸 。 传 统 的 聚 类 分 析 方 法 以 全 体 数 据 集 
为 处 理 对 象 , 而 话题 检测 处 理 的 对 象 是 按时 间 排 序 的 新 闻 报 道 数据 流 ,数量 庞大 且 具 有 
明确 的 时 序 关系 。 此 外 , 数据 流 中 的 话题 往往 是 动态 演化 的 , 话题 检测 要 求 更 充分 的 判 
断 依据 。 这 些 都 是 传统 的 聚 类 方法 用 于 话题 检测 时 需要 解决 的 问题 。 

话题 检测 通常 分 为 话题 在 线 检测 和 话题 回溯 检测 两 种 类 型 。 话题 在 线 检测 的 输入 是 
实时 的 报道 数据 流 ， 当 前 时 刻 的 后 续 报道 是 不 可 见 的 , 要 求 系 统 在 每 个 新 报道 出 现时 ， 
在 线 地 决策 该 报道 是 否 属于 新 的 事件 。 话题 回溯 检测 的 输入 是 整个 语 料 , 包含 所 有 时 刻 
的 报道 数据 ， 要求 系统 离线 地 以 回溯 的 方式 判决 报道 所 属 的 事件 , 并 相应 地 将 整个 语 料 
分 成 若干 个 事件 片段 。 在 线 检测 的 重点 在 于 及 时 地 从 实时 新 闻 报道 流 中 检测 出 新 的 话 
题 , 而 回溯 检测 的 目的 是 从 已 有 的 新 闻 报道 集合 中 发 现 以 前 未 标识 的 新 闻 话题 。 

以 下 分 别 介绍 这 两 种 检测 任务 。 
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8.4.1 ”话题 在 线 检测 


话题 在 线 检测 任务 是 从 实时 报道 中 检测 出 新 的 话题 。 因 为 新 话题 的 信息 是 事先 不 知 
TEEN, 所 以 不 能 基于 确定 的 查询 语句 进行 检索 , 而 且 要 求 在 每 条 报道 出 现 的 同时 就 进行 
实时 决策 。 因此 , 新 话题 在 线 检测 通常 采用 增 量 式 聚 类 算法 。 

一 种 最 为 简单 的 方法 是 基于 单 遍 聚 类 (single-pass clustering) 算法 进行 增 量 式 聚 
类 。 算法 按 顺 序 处 理 输入 的 报道 , 基于 向 量 空间 模型 对 报道 进行 文本 表示 。 以 报道 中 的 
词 或 短语 为 特征 项 , 特征 权重 (feature weight) 基于 TF-IDF 及 其 变 体 , 计算 新 报道 与 
所 有 已 存在 话题 之 间 的 相似 性 。 报道 与 话题 之 间 的 相似 性 通常 转化 为 报道 与 话题 平均 向 
量 (或 中 心 向 量 ) 之 间 的 相似 性 ， 如果 相似 性 高 于 预 设 的 合并 -分 裂 阔 值 (或 距离 小 于 阔 
值 ), 就 将 其 归 入 最 相似 的 那 一 类 簇 , 否则 建立 一 个 新 的 类 簇 。 这样 反 复 执 行 ， 直到 所 有 
的 数据 都 读 完 ， 整 个 过 程 对 数据 只 进行 单 遍 读 取 。 这 种 算法 最 后 形成 一 个 数据 的 扁平 聚 
类 。 聚 类 的 数目 取决 于 合并 -分 裂 阔 值 的 大 小 。 单 遍 聚 类 算法 详 见 本 书 5.3.2 节 。 

在 TDT 初期 的 研究 中 ，UMass 和 CMU 的 研究 人 员 都 采取 过 这 种 方法 [Allan et 
al., 1998b; Yang et al., 1998]。 为 了 适应 实时 数据 流 的 特性 , 他 们 对 传统 的 文本 表示 和 相 
似 性 计算 方法 分 别 做 了 相应 的 改进 。 

具体 地 ，[Allan et al., 1998b] 将 每 篇 报道 的 内 容 表示 为 一 个 查询 ,并 与 之 前 所 有 的 
查询 进行 比较 。 如 果 新 的 报道 触发 了 某 个 已 有 的 查询 ， 则 认为 这 篇 报道 讨论 了 被 触发 查 
询 对 应 的 话题 , 否则 , 将 这 篇 文档 视 为 含有 新 的 话题 。 

假设 g 是 一 个 查询 (query), q 可 以 表示 为 一 组 特征 , 基于 这 些 特征 为 每 个 文档 建 
立 相 应 的 报道 表示 d, 并 定义 查询 q 和 报道 d 之 间 的 相关 性 为 : 


N 


> wie di 


eval (q, d) = = (8.7) 


dw 
i=l 


其 中 , wi 表示 查询 特征 qi 的 权重 , di 是 特征 qi 在 文档 表示 中 对 应 的 特征 权重 。 
1 于 未 来 文档 在 实时 环境 下 是 未 知 的 , 因此 需要 根据 一 个 辅助 语 料 c (这 个 辅助 语 
料 需要 与 当前 检测 的 文本 数据 流 属于 同一 个 领域 ) 估计 IDF: 


lc|+0.5 


(8.8) 


其 中 , dfi 为 特征 qi 在 c 中 的 文档 频率 , |c| 为 语 料 c 包含 的 文档 数 。 同 时 使 用 平均 化 的 
TF 值 : 
tf; = (8.9) 
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其 中 , ti 表示 特征 qi 在 文档 d 中 的 词 频 , dl 为 文档 d 的 长 度 , avg dl 为 辅助 语 料 中 的 平 
均 文档 长 度 。 在 此 基础 上 , 设置 特征 qi 的 权重 为 : 


tw; = 0.4 + 0.6. tf; - idf; (8.10) 


另外 , 查询 q 中 的 特征 是 动态 变化 的 , 每 次 选择 数据 流 中 所 有 已 出 现 文档 的 前 n 个 
高 频 词 构建 特征 ,同时 以 前 所 有 的 查询 表示 都 需要 在 新 的 特征 项 上 更 新 一 遍 。 特征 qi 对 
应 的 权重 是 所 有 已 出 现 文档 中 tf 的 平均 值 。 

很 多 研究 表明 , 基于 新 闻 语 料 的 时 间 特 征 可 以 提高 NED 性 能 的 假设 , 数据 流 中 时 
间接 近 的 文档 更 有 可 能 讨论 相同 的 话题 。 基于 这 一 想法 , 通常 在 阔 值 模型 中 增加 时 间 惩 
罚 属 性 ， 当 第 j 篇 文档 与 第 i 个 查询 (i < j) 进行 比较 时 , 阐 值 定义 为 : 


0 (q,d) =0.4+ p - (eval (q®,d™) — 0.4) +tp: (j — i) (8.11) 


其 中 , eval(q®, d®) WEW qO 的 初始 阔 值 , p 是 初始 阔 值 的 权重 参数 ,tp 为 时 间 惩 罚 
的 权重 参数 。 

前 面 5.3.2 节 曾 经 指出 , 单 遍 聚 类 算法 对 文本 输入 顺序 非常 敏感 一 一 一 旦 文本 顺序 
发 生 了 变化 , 聚 类 结果 可 能 会 出 现 很 大 的 差异 。 但 是 在 TDT 的 话题 发 现任 务 中 , 数据 流 
中 的 报道 次 序 是 确定 的 。 同时 , 由 于 单 遍 聚 类 算法 具有 原理 简单 、 运 算 速 度 快 、 支 持 在 线 
运算 的 优点 , 因此 非常 适合 大 规模 新 闻 数 据 流 的 实时 话题 检测 应 用 。 后 期 的 相关 研究 多 
以 这 种 方法 作为 基础 ,主要 涉及 三 个 方面 的 改进 : 一 是 建立 更 好 的 报道 表示 形式 , 二 是 
寻找 更 加 合理 的 相似 度 计算 方法 , 三 是 充分 利用 在 线 语 料 的 时 间 特 征 。 


8.4.2 ”话题 回溯 检测 


事件 回溯 检测 的 主要 任务 是 回顾 过 去 所 有 发 生 过 的 新 闻 报道 , 并 从 中 检测 出 未 被 识 
别 出 的 话题 。 

在 TDT 初期 的 研究 中 , CMU 的 研究 人 员 提 出 了 一 种 基于 平均 分 组 的 层次 聚 类 算 
法 [Allan et al., 1998a; Yang et al., 1998], 成 为 事件 回溯 检测 任务 中 被 广泛 使 用 的 算法 。 
该 方法 采用 了 分 而 治之 的 策略 , 将 新 闻 报道 流 按 序 平均 地 切 分 成 若干 集合 , 在 每 个 集合 
中 采取 自 底 向 上 的 层次 聚 类 , 再 将 较为 接近 的 类 簇 聚合 成 新 的 类 簇 , HAL RIE NK — 
过 程 , 最 终 输 出 具有 层次 关系 的 话题 类 簇 结构 。 

本 书 5.3.3 节 已 经 详细 介绍 了 自 底 向 上 的 聚合 式 层次 聚 类 方法 , 其 基本 思路 是 : 初 
始 时 将 每 个 数据 都 视 为 单独 的 一 类 , 然后 每 次 合并 所 有 类 别 中 最 相似 的 两 个 类 别 , 直至 
所 有 样本 都 合并 为 一 个 类 别 或 满足 终止 条 件 时 结束 。 详 细 算 法 不 再 袭 述 。 

算法 最 后 构造 了 一 棵 层次 聚 类 树 , 树 的 项 层 代 表 了 一 个 粗 粒度 的 事件 划分 , 越 往 底 
层 越 代表 更 加 细 粒 度 的 事件 划分 。 算法 的 时 间 复 杂 度 为 O(mn), 其 中 n 为 新 闻 文档 集合 
中 的 文档 数量 , m 为 桶 的 大 小 。 该 算法 的 缺点 是 只 适合 话题 的 回溯 检测 ， 而 不 适用 于 在 
线 检测 , 应 用 范围 具有 一 定 的 局 限 性 。 
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8.5 话题 跟踪 


话题 跟踪 是 一 种 对 特定 话题 进行 追踪 的 技术 , 其 目标 是 在 给 定 与 特定 话题 相关 的 少 
量 报道 条 件 下 , 检测 出 新 闻 报道 流 中 与 该 话题 相关 的 后 续 报道 。 

一 方面 ， 从 信息 检索 的 角度 , 话题 跟踪 和 信息 过 滤 技 术 较 为 类 似 , 因此 可 以 基于 信 
息 过 滤 技 术 中 构建 查询 的 方法 进行 话题 跟踪 , 其 基本 思想 是 : 利用 话题 的 训练 语 料 (将 
待 跟踪 的 少量 报道 作为 正 例 样本 , 将 大 量 其 他 报道 作为 负 例 样本 ) 建立 查询 器 , 然后 计 
算 查 询 器 和 后 续 报道 之 间 的 相似 度 , 最 后 通过 相似 度 和 阔 值 的 比较 判定 报道 是 否 与 待 跟 
踪 的 话题 匹配 。 

在 实现 过 程 中 , 通常 有 两 种 建立 查询 器 的 方法 ,一 种 是 基于 向 量 空间 模型 ， 另 一 个 
是 使 用 语言 模型 。 前 一 种 方法 集中 在 如 何 基 于 向 量 空间 模型 更 好 地 表示 待 跟踪 的 话题 ， 
包括 基于 相关 反馈 (relevance feedback) 方法 建立 查询 、 基 于 浅 层 句法 分 析 技 术 进 行 特 
征 抽 取 , 以 及 尝试 不 同 的 特征 加 权 方 法 等 。 利用 语言 模型 建立 查询 器 的 方法 通常 需要 较 
大 规模 的 背景 语 料 。 

另 一 方面 从 文本 分 类 的 角度 , 话题 跟踪 可 以 抽象 为 与 跟踪 话题 相关 GE BI) 和 不 相 
关 ( 负 例 ) 两 种 类 别 , 基于 较 少 的 正 例 样本 和 大 量 负 例 样本 构建 训练 集 , 训练 线性 分 类 器 
对 新 的 报道 进行 类 别 预测 。 常见 的 文本 分 类 算法 , 如 K- 近 邻 算 法 、Rocchio 算法 和 决策 
树 等 , 都 可 以 用 于 话题 跟踪 。 

基于 KK- 近邻 方法 实现 话题 跟踪 的 研究 机 构 代 表 是 CMU, 他 们 实现 的 算法 以 增 量 的 
方式 建立 由 正 例 和 负 例 样本 构成 的 训练 集 ， 当 新 的 报道 出 现时 , 计算 其 与 训练 集 每 个 样 
本 之 间 的 相似 性 , 根据 阔 值 判别 新 报道 属于 正 例 还 是 负 例 , 最 终 基 于 距离 最 近 的 个 训 
练 样本 投票 决定 新 报道 的 是 否 属于 待 跟踪 的 话题 。 该 方法 的 缺点 是 类 别 不 平衡 问题 〈 负 
例 样本 数目 远 远 高 于 正 例 样本 ) 对 于 算法 的 干扰 , 并 且 难 以 寻找 合理 的 阔 值 。 对 这 种 方 
法 的 改进 工作 包括 对 正 例 样本 和 负 例 样本 分 别 构建 K- 近 邻 模 型 , 一 个 用 于 计算 新 报道 
与 话题 相关 的 训练 样本 之 间 的 相似 度 SH, 另 一 个 用 于 计算 新 报道 与 话题 不 相关 的 训练 
样本 之 间 的 相似 度 ST, 最 后 基于 两 者 的 线性 加 权 综 合 判 定 该 报道 是 否 属于 待 跟踪 的 
话题 。 

UMass 的 人 员 采 用 Rocchio 算法 进行 话题 跟踪 研究 , 他 们 尝试 了 三 种 不 同 的 权重 计 
算 方法 进行 报道 的 表示 ,对 相似 度 计 算 进 行规 范 化 ,并 尝试 在 跟踪 过 程 中 对 话题 向 量 进 
行动 态 调整 。 

有 些 研究 者 基于 决策 树 方 法 实现 话题 跟踪 , 但 是 该 方法 的 一 个 较 大 缺点 是 它 只 能 输 
出 “是 ”或 “ 否 ” 的 判断 结果 , 而 不 能 输出 一 个 连续 变化 的 可 信和 度 分 值 ， 因此 不 能 产生 有 
效 的 DET 评估 曲线 。 后 续 的 研究 还 包括 对 报道 和 话题 的 表示 方法 进行 改进 ， 如 引入 时 
间 、 地 点 、 人 物 等 新 闻 要 素 , 以 及 基于 集成 学 习 方 法 将 多 个 弱 跟踪 器 组 合成 为 一 个 强 跟 
踪 器 等 。 
1 于 构建 话题 模型 的 初始 训练 数据 过 于 稀疏 ， 且 不 具备 被 跟踪 话题 的 先 验 知识 ， 
此 常常 使 得 依据 初始 训练 样本 得 到 的 话题 模型 不 够 充分 和 准确 。 同 时 话题 是 动态 发 展 
的 , 在 话题 发 展 一 段 时 间 以 后 模型 往往 无 法 进行 有 效 的 跟踪 。 所 以 ， 有 学 者 提出 了 自 


160 第 8 章 ， 话 题 检测 与 跟踪 


适应 话题 跟踪 (adaptive topic tracking, ATT) 的 研究 思路 , 根据 时 间 变 化 动态 地 调节 
模型 。 

ATT 研究 主要 依据 系统 的 “ 伪 ” 标 注 修正 话题 跟踪 模型 ,建立 动态 的 话题 特征 , 同 
时 对 特征 权重 进行 动态 调整 ,并 进行 增 量 式 的 模型 学 习 。Dragon 公司 [Yamron et al., 
2000] #11 UMass[Connell et al., 2004] 都 是 最 早 尝试 无 监督 ATT 研究 的 单位 , 前 者 把 系 
统 认为 相关 的 报道 嵌入 训练 语 料 中 , 并 基于 语言 模型 构造 新 的 话题 模型 , 而 后 者 则 将 所 
有 人 先 验 报道 的 质心 作为 话题 模型 ,并 将 先 验 报道 与 话题 模型 相关 度 的 平均 值 作为 阐 值 ， 
后 续 跟 踪 过 程 中 每 次 检测 到 相关 报道 时 ， 都 将 其 嵌入 到 训练 语 料 ,并 根据 上 述 方法 重新 
估计 话题 模型 和 阔 值 。ATT 以 自学 习 的 方式 , 逐步 加 入 伪 标 注 样本 进行 模型 学 习 和 修 
IE, 弥补 了 由 于 初始 的 训练 样本 稀 芍 和 话题 动态 演变 所 造成 的 话题 跟踪 模型 缺陷 ， 从 而 
提高 了 跟踪 话题 模型 的 能 力 。 但 是 , ATT 的 自学 习 模块 完全 基于 伪 标 注 样本 进行 跟踪 的 
反馈 , 不 加 鉴别 地 用 于 话题 模型 的 更 新 , 容易 在 引入 相关 报道 的 同时 也 带 入 大 量 不 相关 
信息 ,从 而 导致 话题 漂移 ， 影响 后 续 话 题 跟踪 的 性 能 。 


8.6 评估 方法 


话题 检测 与 跟踪 技术 是 以 评测 驱动 的 方式 发 展 起 来 的 ,公开 发 布 的 TDT 语 料 共 有 
五 期 , 分 别 为 TDT 预 研 语 料 、TDT2、TDT3、TDT4 和 TDT5。 这 些 语 料 选 自 多 语言 新 
闻 报 道 集 合 , 由 语言 数据 联盟 (Linguistic Data Consortium, LDC) 提供 。 

总 体 来 看 TDT 系列 评测 会 议 提供 的 语 料 体 现 了 两 大 特点 : 一 是 广泛 性 ， 除 了 
TDT5 语 料 只 包含 文本 形式 的 新 闻 报道 以 外 ,其 他 语 料 都 包含 广播 和 文本 两 种 形式 ; 二 
是 多 语言 ， 最 初 只 包含 英语 语 料 , 后 续 又 陆续 增加 了 汉语 语 料 和 阿拉 伯 语 语 料 。LDC 
根据 报道 与 话题 的 相关 性 对 所 有 语言 的 语 料 都 进行 了 标注 ， 在 TDT2、TDT3 中 采 
用 “YES”“BRIEF”“NO” 这 三 种 标识 , 在 TDT4 All TDT5 中 只 采用 “YES” 和 “NO” 
这 两 种 标识 。 其 中 “YES” 表 示 报 道 与 话题 绝对 相关 ,“BRIEF” 表 示 两 者 相关 程度 低 于 
10%, “NO” 表 示 两 者 不 相关 。 广播 类 语 料 既 包含 新 闻 类 报道 , 也 包含 非 新 闻 类 报道 ， 如 
商业 贸易 报道 、 财 经 数据 等 。 因此 对 于 广播 类 语 料 , LDC 额外 提供 了 三 种 标注 形式 : 新 
闻 报 道 mews)、 多 元 报道 (miscellaneous) 和 未 转录 报道 Cun-transcribed). 

TDT 任务 本 质 上 是 一 个 二 分 类 问题 。 类 似 于 4.6 节 所 述 的 文本 分 类 系统 评估 方法 ， 
可 以 根据 参考 标注 值 和 系统 预测 值 定义 如 表 8.2 所 示 的 四 种 情况 。TDT 的 评测 标准 以 漏 
报 率 (missed detection rate, MDR) 和 误 报 率 (false alarm rate, FAR) 这 两 个 指标 为 基 
Ti, 评测 体系 可 以 根据 检测 错误 权衡 图 (detection error tradeoff plot, DET) 观察 TDT 


表 8.2 TDT 任务 的 模型 预测 情况 分 类 

参考 标注 
目标 (target ) 非 目 标 (non-target ) 
是 正确 (correct) 误 报 (false alarm) 
a 漏 报 (missed detections) 正确 (correct) 


系统 预测 
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系统 发 生 错 误 的 情况 。 图 8.6 是 TDT2000 评测 中 的 一 个 DET 曲线 示例 , 横 轴 表示 系统 
误 报 率 , 纵 轴 表 示 系 统 漏 报 率 , 越 靠近 坐标 左下 角 的 曲线 相应 的 系统 性 能 越 好 。 
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图 8.6 TDT 检测 错误 权衡 图 (DET) 示例 
可 以 采用 Chet 指标 量化 被 评估 系统 的 性 能 。Cpet 的 定义 为 : 


CDet = Cup + Pup + Piarget + Cra * Pra * Paon target (8.12) 


IEF, Pun 和 Pra 分别 是 漏 报 和 误 报 的 条 件 概率 , Cop 和 Cra 分 别 是 漏 报 和 误 报 的 权 
ESK, Piaget 表示 目标 话题 的 先 验 概率 ，Poon target = 1 一 Piarget。CMD、CFA 和 Prarget 
AVE TI. Pup 和 Pea 的 计算 公式 如 下 : 

_ #Missed_Detections 


Mis et (8.13) 
_ #False Alarms 
Pra = on Targets (8.14) 
一 般 情况 下 , 采用 归 一 化 后 的 Cae 作为 系统 的 性 能 得 分 : 
c 
(CDet)Norm Det (8.15) 


min {Cmp * Piarget, Cra .已 on target} 
8.7 ”社交 媒体 话题 检测 与 跟踪 


传统 的 话题 检测 与 跟踪 主要 面向 传统 媒体 (如 广播 新 闻 ) 的 内 容 进行 话题 的 发 现 和 
跟踪 。 与 传统 的 话题 检测 与 跟踪 任务 相 比 , 面向 社交 媒体 的 话题 检测 和 跟踪 具有 以 下 三 
个 特点 : 社交 媒体 上 用 户 产生 的 内 容 Cuser generated context, UGC) 具有 文本 简短 、 
特征 稀疏 、 语 言 不 规范 和 模 态 多 样 化 等 特点 ， 使 文本 表示 和 建 模 面临 更 大 的 难度 ; @ 社 
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交 媒 体 是 全 民 信息 共享 和 传播 形成 的 信息 洪流 , 为 实时 话题 检测 与 跟踪 带 来 巨大 挑战 ; 
@@ 由 于 社交 媒体 的 广泛 参与 性 和 开放 性 , 社交 媒体 已 经 成 为 众多 突 发 事件 的 首发 平台 ， 
因此 在 社交 媒体 话题 检测 与 跟踪 中 , 突 发 话题 检测 (bursty/breaking topic detection) 任 
务 受到 了 更 多 的 关注 。 

以 下 首先 介绍 与 传统 媒体 的 话题 检测 与 跟踪 相 比 社交 媒体 的 话题 检测 与 跟踪 的 任务 


特点 , 然后 介绍 社交 媒体 的 话题 检测 与 跟踪 的 主要 任务 和 方法 , 最 后 重点 介绍 突 发 话题 
的 检测 任务 。 


8.7.1 ”社交 媒体 话题 检测 


社交 媒体 话题 检测 的 主要 任务 是 检测 出 社交 媒体 文本 数据 流 中 的 热点 话题 。 类 似 于 
传统 的 话题 检测 ,社交 媒体 话题 检测 也 可 分 为 话题 在 线 检测 和 回溯 话题 检测 。 但 由 于 社 
交 媒 体 的 实时 性 , 所 以 更 加 关注 话题 的 在 线 检测 。 

社交 媒体 的 话题 检测 更 多 的 是 从 事件 类 型 的 角度 , 将 任务 分 为 特定 话题 检测 和 非 
特定 话题 检测 。 特 定 话题 检测 主要 对 已 知 的 历史 话题 (如 已 发 生 的 某 个 历史 事件 ) 或 者 
计划 的 话题 (如 即将 举办 的 会 议 或 节日 庆典 ) 进行 检测 , 构造 话题 模型 时 可 以 利用 事先 
己 知 的 事件 时 间 、 地点、 主要 内 容 等 信息 。 非 特定 话题 检测 是 在 对 话题 毫 不 知情 的 情况 
下 (如 地 震 等 突 发 自然 灾害 )， 从 实时 的 数据 流 中 检测 出 新 的 话题 , 同时 收集 已 识别 话题 
的 相关 后 续 报 道 。 后 者 是 社交 媒体 话题 检测 的 重点 和 难点 。 


1. 特定 话题 检测 


特定 话题 检测 方法 可 分 为 无 监督 的 机 器 学 习 方法 和 有 监督 的 机 器 学 习 两 大 类 。 与 传统 
的 话题 检测 方法 类 似 , 面向 社交 媒体 的 无 监督 机 器 学 习 方法 主要 通过 聚 类 或 动态 查询 扩展 
的 方法 进行 话题 检测 ， 区 别 在 于 进行 话题 表示 和 相似 度 计算 时 除了 文本 内 容 以 外 ， 还 融入 
了 社交 媒体 中 包含 的 其 他 类 型 的 信息 。 如 [Lee and Sumiya, 2010] 介绍 了 基于 Twitter 数 
据 流 进行 的 当地 节日 检测 方法 ， 他 们 发 现 当 地 举办 节日 活动 时 ， 用 户 的 数量 和 推 特 文本 的 
数量 都 会 有 显著 的 增加 。 他 们 首先 收集 了 含有 地 理 标签 的 Twitter 数据 , 然后 采用 天 -均值 
算法 对 这 些 数 据 进 行 聚 类 , 找 出 特定 区 域内 的 话题 ,从 而 检测 出 当地 的 节日 。[Massoudi 
et al., 2011] 基于 动态 查询 扩展 技术 提出 了 适用 于 微 博 的 话题 检测 模型 ,该 模型 同时 融 
合 了 文本 信息 和 微 博 中 的 特殊 信息 ,如 表情 、 超 链接 、 粉 丝 数 量 和 转发 数量 等 。 
由 于 特定 话题 检测 中 话题 信息 是 提前 已 知 的 ,因此 可 以 根据 这 些 已 知 话题 建立 
带 有 标注 的 训练 语 料 ， 并 基于 有 监督 的 机 器 学 习 方法 进行 话题 检测 。[Popescu and 
Pennacchiotti, 2010] 利用 有 监督 的 机 器 学 习 方法 研究 了 Twitter 争议 话题 的 检测 方法 。 
他 们 首先 根据 已 知 的 实体 收集 Twitter 语 料 并 进行 人 工 标注 , 然后 训练 有 监督 的 梯度 迭 
代 决 策 树 (supervised gradient boosted decision trees) 模型 , 最 后 基于 该 决策 树 模 型 进 
行 争 议 话题 检测 。 他 们 强调 了 丰富 、 多 样 的 特征 集合 的 重要 性 ， 其 中 哈 希 标签 Cl “He” ) 
是 话题 检测 中 的 重要 特征 , 语言 特征 、 结 构 特征 和 情感 特征 也 是 有 效 特征 。[Popescu et 
al., 2011] 随后 尝试 了 更 多 的 特征 , 如 位 置信 息 和 词 频 信息 等 , 他 们 的 研究 发 现 消息 回复 
数量 也 是 一 个 重要 的 特征 。 与 无 监督 的 方法 相 比 , 有 监督 的 话题 检测 方法 更 加 有 效 。 
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2. 非特 定 话题 检测 


非特 定 话题 的 信息 提前 未 知 , 传统 方法 主要 基于 聚 类 算法 进行 非特 定 话题 检测 。 社 
交 媒体 文本 所 具有 的 特性 使 得 传统 的 话题 检测 方法 不 能 有 效 地 发 挥 作用 。 因 此 , 研究 者 
们 提出 了 两 方面 的 解决 方案 。 

一 方面 , 利用 社交 媒体 中 的 特殊 信息 作为 新 特征 进行 话题 表示 。 例如 , [Becker et al., 
2011] 在 经 典 的 增 量 聚 类 算法 [Allan et al., 1998b] 的 基础 上 , 结合 了 转发 、 回复 、 提 及 等 
社交 媒体 的 特殊 信息 ,用 于 社交 媒体 话题 检测 。[Feng et al., 2015] 将 Twitter 数据 进行 
时 空 两 个 维度 上 的 聚合 ， 设 计 了 一 种 基于 哈 希 标签 (hashtag) 的 单 遍 聚 类 事件 检测 方法 
和 相应 的 排序 算法 。[Phuvipadawat and Murata, 2010] 采用 向 量 空间 模型 和 TF-IDF 权 
重 进行 文本 表示 和 相似 性 计算 ,利用 聚 类 算法 形成 话题 ， 然 后 利用 粉丝 数量 和 转发 数量 
对 各 个 话题 进行 排序 ， 从 而 识别 出 Twitter 数据 流 中 的 突 发 新 闻 。 他 们 强调 了 专 有 名 词 
的 重要 性 , 他 们 认为 , 准确 地 识别 专 有 名 词 有 助 于 文本 相似 性 的 计算 , 可 以 提高 检测 系 
统 的 精度 。 

另 一 方面 , 对 己 有 的 聚 类 算法 进行 改造 或 寻找 新 的 聚 类 算法 以 适应 社交 媒体 应 用 的 
要 求 。[Petrov et al., 2010] 致力 于 提高 传统 的 话题 检测 算法 在 社交 媒体 大 规模 实时 数据 
流下 的 检测 性 能 , 他 们 在 在 线 NED 算法 ( 见 8.4.1 节 ) 的 基础 上 , 进一步 提出 了 基于 局 
部 敏感 哈 希 算法 (ocality sensitive hashing methods) 的 恒定 时 间 和 空间 的 在 线 NED Jy 
法 。 该 方法 能 够 有 效 地 将 搜索 范围 限制 在 少量 的 文档 中 , 在 保证 算法 有 效 性 的 同时 ， 大 
幅 提高 了 算法 的 运算 效率 。 


8.7.2 ”社交 媒体 话题 跟踪 


社交 媒体 话题 跟踪 的 主要 任务 是 在 陆续 到 达 的 数据 流 中 检测 出 与 已 有 话题 相关 的 报 
道 。 与 传统 媒体 的 话题 跟踪 任务 相 比 , 社交 媒体 文本 内 容 的 特征 稀疏 性 、 网 络 用 语 不 规 
范 等 特点 给 话题 追踪 带 来 了 挑战 。 

目前 已 有 的 研究 工作 主要 从 如 何 利用 社交 媒体 的 特殊 信息 ， 如 用 户 属性 信 
息 、 用 户 关系 等 ， 以 及 如 何 改 进 稀疏 表达 这 两 个 方面 进行 社交 媒体 的 话题 跟踪 研 
究 。[Phuvipadawat and Murata, 2010] 指出 , 丰富 的 社交 属性 信息 可 以 提高 社交 媒体 中 
话题 追踪 的 准确 率 。 他 们 利用 URL 信息 、 哈 希 标签 、 转 发 数量 、 用 户 信 息 等 特征 计算 
Twitter 文本 的 热度 , 实现 了 社交 媒体 中 突 发 话题 的 追踪 。[Lin et al., 2011] 将 哈 希 标 
Z (hashtag) 作为 样本 标签 , 为 每 一 个 关心 的 话题 都 训练 一 个 语言 模型 ， 从 而 实现 了 对 
Twitter 文本 流 中 所 关注 话题 的 追踪 。 


8.8 ” 突 发 话题 检测 


新 闻 报 道 和 社交 媒体 的 文本 数据 流 中 包含 天 然 的 时 序 信 息 , 通过 对 这 种 时 序 信息 
的 分 析 , 我 们 可 以 观察 到 话题 是 何 时 发 生 的 , 何 时 爆发 的 ,， 又 是 何 时 衰退 的 。 突 发 话 
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题 检 测 是 指 从 文本 数据 流 中 检测 出 随时 间 迅 速 发 展 的 突 发 性 话题 , 也 称 为 突 发 事件 检 
测 Cbursty/breaking event detection) 。 

传统 的 话题 检测 与 突 发 话题 检测 任务 有 所 不 同 。 传统 的 话题 检测 大 多 采取 以 文 
档 为 中 心 的 方法 ,基于 向 量 空间 模型 进行 文档 表示 ,通过 度量 文档 之 间 的 语义 距离 
对 文档 聚 类 ， 从 而 检测 出 文本 流 中 的 话题 。 它 所 强调 的 是 新 话题 的 检测 ， 而 不 是 判断 
话题 是 否 具有 突 发 性 。 而 突 发 话题 检测 则 强调 话题 的 突 发 特征 的 识别 和 突 发 期 的 检 
测 。[Fung et al., 2005] 根据 突 发 特征 识别 的 顺序 , 将 突 发 话题 检测 方法 分 为 以 文档 为 中 
心 (document-pivot) 的 方法 和 以 特征 为 中 心 (feature-pivot) 的 方法 两 种 。 前 者 首先 通 
过 文档 聚 类 进行 话题 检测 ， 然 后 对 话题 进行 突 发 性 评估 : 后 者 首先 抽取 突 发 特征 , 再 将 
突 发 特征 进行 聚 类 以 生成 突 发 话题 。 

另外 , 传统 的 话题 检测 方法 主要 面向 新 闻 报道 数据 , 采取 以 文档 为 中 心 的 方法 , 首 
先 通过 文本 聚 类 或 分 类 技术 进行 话题 检测 ， 然 后 对 话题 进行 突 发 性 评估 。 由 于 社交 媒体 
所 具有 的 参与 度 广 、 话题 动 态 变 化 和 数据 海量 等 特点 , 使 得 传统 以 文档 为 中 心 的 检测 方 
法 力不从心 , 以 特征 为 中 心 的 突 发 话题 检测 算法 受到 越 来 越 多 的 关注 。 

无 论 是 以 文档 为 中 心 的 检测 方法 , 还 是 以 特征 为 中 的 检测 方法 ,都 需要 进行 突 发 状 
态 的 识别 。 前 者 通常 针对 聚 类 后 的 话题 进行 突 发 状态 识别 , 而 后 者 针对 特征 进行 突 发 状 
态 识别 。 以 下 首先 介绍 一 种 经 典 的 突 发 状态 识别 算法 , 然后 分 别 介 绍 以 文档 为 中 心 和 以 
特征 为 中 心 的 突 发 话题 检测 经 典 方法 。 


8.8.1 ” 突 发 状态 识别 


[Kleinberg, 2002] 提 出 了 一 种 文本 数据 流 突 发 状态 检测 模型 ， 基 本 思路 是 利用 自动 
机 模拟 数据 流 中 文档 的 到 达 时 间 ， 以 识别 一 段 有 限时 间 内 高 强度 的 突 发 特征 或 突 发 话 
题 。 该 模型 后 来 被 称 为 Kleinberg 算法 , 在 后 续 的 突 发 话题 检测 研究 中 得 到 了 广泛 的 应 
用 。 算法 的 核心 思想 是 : 通过 自动 机 模型 模拟 特征 〈 词 项 或 者 话题 ) 的 状态 以 及 状态 之 
间 的 转换 , 不 同 状态 表示 词 的 不 同 出 现 频 率 , 状态 之 间 的 转换 表示 “ 突 发 ”的 产生 或 者 消 
Eo 通过 对 文本 流 中 相 邻 文本 之 间 的 时 间 间 隔 建 模 , 获取 最 优 的 时 间 间 隔 序 列 ， 从 而 可 
以 发 掘 出 消息 文本 所 对 应 的 状态 。 

在 这 种 方法 中 , 文本 流 被 组 织 成 文档 序列 D = {Di, D2,… , Dap 其 中 Di 表示 在 
寺 间 片 i 内 的 新 闻 , 对 于 特征 词 项 w (也 可 以 是 一 个 话题 , 对 应 话题 的 突 发 状态 检测 )， 
统计 w 在 每 个 时 间 片 内 的 频率 rwi， 生 成 序列 rw = {rww ,Twn}。 这 里 假设 序 
列 是 由 二 元 状态 自动 机 生成 的 。 那么 , 问题 就 转化 为 由 已 知 表现 序列 求解 隐 含 状态 序列 
的 问题 ， 从 而 成 为 隐 式 马尔 可 夫 问题 。 其 中 , 隐 含 状态 包含 突 发 状态 和 正常 状态 。 最终 求 
得 特征 词 在 每 个 时 间 片 的 隐 含 状态 , 即 突 发 期 和 正常 期 。 

根据 上 述 思 路 , 首先 采用 指数 分 布 模拟 文档 的 到 达 时 间 。 两 个 相 邻 文档 i 和 i 十 1 的 
间隔 > 服从 指数 分 布 , 其 密度 函数 为 : 


f=”, S00 (8.16) 
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分 布 函 数 为 : 
F(z)=1-e™, a>0,2>0 (8.17) 

同时 , EB at, a 表示 文档 的 到 达 速 率 。 

对 于 突 发 状态 检测 任务 , 定义 词 项 的 两 个 状态 : 正常 状态 go( 低 状态 ) 和 突 发 状态 
a (高 状态 )。 每 个 时 刻 自动 机 都 必定 处 于 其 中 的 一 个 状态 , 所 处 的 这 个 状态 会 在 一 个 时 
间 间 隔 后 发 出 一 个 文档 , 随后 以 一 定 概率 切换 到 另 一 个 状态 或 者 保持 在 原状 态 。 突 发 话 
题 则 被 模拟 成 一 段 周 期 内 高 低 状态 的 转换 。 

如 图 8.7 Fras, 当 词 项 在 低 状态 go 时 , 间隔 x 有 密度 函数 fo (£) = aoet; 当 词 项 
处 在 高 状态 q 时 ,间隔 > 有 密度 函数 fy (z) =ar, TREER al > ao。 


间隔 x 的 分 布 参数 为 c 间隔 * 的 分 布 参数 为 as 
4 4 


O==0 


状态 转移 ， 概 率 为 p 
(a) (b) 


图 8.7 正常 状态 和 突 发 状态 间隔 时 间 和 状态 转移 建 模 


低 状 态 高 状态 


St (x)=ae™ 


假设 已 知 数 据 流 中 的 第 n 十 1 个 文档 , 记录 其 间隔 序 列 为 aw = (21,22, , En)» 
S a 对 应 的 状态 序列 为 g = (dirs dias din) 状态 转移 的 概率 为 p, IWA, 对 于 间隔 序 
PA) ac 的 密度 函数 为 : 
fa (a) = [J fi (22) (8.18) 
t=1 
其 中 , ig 表示 z 中 时 间 间 隔 zt 的 状态 值 。 
WA b 为 序列 中 状态 转换 的 次 数 , 那么 q 的 先 验 概率 为 : 


P (q) = (1 — p)” (8.19) 
根据 贝 叶 斯 公式 ， 可 得 到 给 定 间隔 序列 条 件 下 状态 序列 的 后 验 概率 : 
P(g) fal) 
P (gle) = 二 

> Pd’) fa (2) 

7 
= eer (8.20) 
=z 1-p P. il ig (Te . 


P(q) fal) 
其 中 ， | 
>》 PCa) fa (@) 
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根据 最 大 似 然 估计 原理 ， 对 上 式 中 的 两 边 同 时 取 对 数 后 取 反 可 得 : 


mpiga) =m (252) + (So OC) a -ptz (8.21) 


tl 


其 中 第 三 项 和 第 四 项 与 q 无 关 。 因此 , 可 设计 如 下 损失 函数 : 


c(qlz) = bln 人 =) + bs iste) (8.22) 


t=1 


最 可 能 的 状态 序列 求解 等 价 于 损失 函数 (qe) 的 最 小 化 。 直觉 上 , 应 该 使 g 中 状态 变化 
的 次 数 尽量 少 , 同时 使 状态 序列 q 适应 观测 值 问 隔 序列 ae 

Kleinberg 算法 还 可 以 进一步 把 两 个 状态 扩展 为 无 限 状 态 , 假设 状态 序列 q 中 的 每 
一 个 状态 都 有 可 能 属于 状态 (qo,q1,… ,qi,…) 中 的 一 个 。 同时, 为 了 简化 模型 和 方便 推 
T 令 时 间 间 隔 的 估计 量 为 9 = 并 令 ao = 7 其 中 了 为 时 间 段 的 总 时 长 。 当 i>0 
时 , 存在 状态 qi 及 相应 的 指数 分 布 密度 fio 使 得 ai = aost, s > 1 为 缩放 参数 。 最 后 , E 


正比 于 状态 之 间 的 差 值 , 而 高 状态 转化 为 低 状 态 的 损失 为 0， 即 


Per J (j-i)ymn, j>i 
T (i,j) = { 0, i (8.23) 
其 中 , y 为 状态 转化 控制 参数 (通常 设 为 1)。 给 定 参 数 s Aly, 可 用 AL, 表示 这 一 自 
动机 (* 表示 无 限 状 态 )。 给 定 间 隔 序列 z = (£1, 722,… ,zn)， 目 标 是 求解 一 个 状态 序列 
q = (qir; qias > lin) 使 得 代价 函数 


n-1 n 
c(qlz) = (Sian) + (全 -me (8.24) 


t=1 t=1 
最 小 。 

令 5(z) = min {ei}, 且 上 三 上 十 logs 了 二 logs6(z) ]。 可 以 证 明 , WR gq* 是 状 
态 机 AS, 的 最 优 状态 序列 , 那么 它 也 是 状态 机 AZ, 的 最 优 状 态 序列 。 这 样 将 无 限 状态 
序列 寻 优 问题 转化 为 有 限 状态 下 的 寻 优 。 

最 后 利用 标准 的 动态 规划 算法 (如 维特 比 解码 ) 求解 上 述 问题 。 定义 Cj(t) 为 给 定 间 
隔 序列 æ = (zt za,… y te) 的 最 小 损失 状态 序列 可 得 以 下 递归 关系 式 : 

C; (t) = — In fj (£4) + min (C1 (t — 1)+7(,7)) (8.25) 


按时 间 t ERRE Cj (t) 其 中 初始 时 刻 状态 值 为 Co (0) = 0, Cj (0) = +00, RABE x 
对 应 的 最 优 状态 序列 。 

值得 一 提 的 是 ，Kleinberg 算法 既 可 以 进行 特征 级 别 的 突 发 检测 (检测 每 个 词 项 的 
突 发 状态 ), 也 可 以 进行 话题 级 别 的 突 发 检测 (检测 经 过 聚 类 的 话题 的 突 发 状态 )。 
Jk, Kleinberg 算法 既 可 以 应 用 于 以 特征 为 枢 轴 的 突 发 话题 检测 , 也 可 以 应 用 于 以 文档 为 
枢 轴 的 话题 检测 。 
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8.8.2 ”以 文档 为 中 心 的 方法 : 先 检测 话题 后 评估 突 发 性 


以 文本 为 中 心 的 检测 方法 首先 将 媒体 文本 按照 发 布 的 时 间 划 入 不 同 的 窗 格 内 ,并 对 
每 个 窗 格 内 的 文本 进行 聚 类 ， 以 每 个 类 代表 一 个 突 发 事件 , 最 后 从 中 抽取 突 发 特征 , 并 
用 突 发 特征 表示 该 突 发 事件 。 前 面 8.4 节 已 经 对 以 文本 为 中 心 的 传统 话题 检测 方法 进行 
了 较为 详细 的 介绍 。 下 面 简要 介绍 社交 媒体 中 以 文本 为 中 心 的 话题 检测 方法 。 

[Chen et al., 2013] 设计 了 一 种 给 定 实体 为 跟踪 目标 的 微 博 消息 抓 取 和 筛选 策略 ， 
用 于 实时 获得 与 实体 相关 的 微 博 数 据 流 。 其 基本 思路 是 , 在 当前 时 刻 t, 对 时 间 窗 口 
t —T,t] T 为 单位 窗口 长 度 ) 内 的 所 有 消息 进行 单 遍 增 量 式 聚 类 , 计算 每 个 消息 与 以 后 
聚 类 中 心 的 相似 度 。 如 果 相似 度 大 于 预定 的 阔 值 ， 则 并 入 已 有 的 聚 类 ， 和 否则 形成 一 个 新 
HRK. 每 个 新 的 聚 类 被 当 作 一 个 新 的 话题 。 该 算法 以 在 线 的 方式 运行 ， 不 断 检测 实时 
数据 流 中 的 话题 。 

为 了 进一步 检测 话题 是 否 处 于 突 发 期 ，[Chen et al., 2012] 建立 了 一 个 基于 协同 训练 
的 半 监 督 突 发 或 非 突 发 状态 分 类 器 。 该 分 类 器 使 用 包含 用 户 数 增长 率 、 消息 数 增长 率 和 
回复 数 增长 率 等 在 内 的 6 种 代表 性 特征 , 在 经 过 人 工 标注 的 数据 集 上 离线 训练 。 图 8.8 
是 该 文 给 出 的 一 个 突 发 话题 的 演化 曲线 。 为 了 使 得 模型 具有 突 发 状态 的 及 时 预测 能 力 ， 
他 们 对 离线 数据 中 的 突 发 事件 进行 了 标注 ， 并 为 每 个 突 发 话题 标注 了 事件 发 生 的 时 刻 te 
和 高 潮 时 刻 thoe， 其 中 时 间 段 [ts, thot] 被 定义 为 突 发 期 。 经 过 离线 训练 得 到 的 分 类 器 实时 
对 在 线 数据 流 中 的 每 个 事件 窗口 进行 分 类 预测 , 确定 其 是 否 为 突 发 状态 。 


消息 数 


时 间 轴 
图 8.8 突 发 话题 的 突 发 期 示意 图 


[Diao et al., 2012] 提 出 了 一 个 时 间 用 户主 题 模型 (TimeUserLDA) 检测 社交 媒体 数 
据 流 中 的 突 发 话题 。 该 文 发 现 同一 时 间 发 布 的 消息 更 可 能 具有 相同 的 话题 , 同一 作者 发 
布 的 消息 更 有 可 能 针对 同一 个 话题 。 基于 这 一 发 现 , 他 们 在 传统 LDA 的 基础 上 融入 了 
时 间 和 作者 信息 ， 从 大 规模 Twitter 数据 中 挖掘 一 组 潜在 主题 C, 每 个 主题 代表 一 个 话 
题 。 对 于 每 个 话题 ce C, 统计 其 在 时 间 轴 上 的 发 生 频 率 (mg, mg,- ,ms)。 最 后 利用 一 
个 与 [Kleinberg, 2003] 类 似 的 状态 机 进行 话题 突 发 性 的 检测 。 
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以 文本 为 中 心 的 话题 检测 方法 在 传统 文本 上 的 效果 较 好 , 但 由 于 社交 媒体 文本 长 度 
较 短 、 数 量 巨大 和 话题 广泛 等 因素 ,其 在 线 聚 类 和 检测 的 性 能 及 效率 都 受到 了 很 大 的 影 
响 ， 因 此 , 在 社交 媒体 的 突 发 话题 检测 中 应 用 更 多 的 是 以 特征 为 中 心 的 检测 方法 。 


8.8.3 ”以 特征 为 中 心 的 方法 : 先 识别 突 发 特征 后 生成 突 发 话题 


对 于 突 发 特征 的 抽取 ,一般 事先 将 文本 数据 流 切 分 成 等 长 且 互 不 重 且 的 时 间 窗 
O (如 按 “ 小 时 ”或 “天 ” 切 分 ), 然后 基于 Kleinberg 算法 或 基于 词 频 或 词 频 变化 率 
进行 排序 , 为 每 个 时 间 窗 口 抽取 出 突 发 特征 。 基于 词 频 或 词 频 变 化 率 的 方法 通过 观察 
特征 的 数量 及 其 变化 抽取 突 发 特征 。 类似 于 特征 选择 算法 , 该 方法 首先 计算 相对 词 频 
Ay = pe 、 词 频 增长 率 Bi = oe 等 指标 , 并 对 词 项 进行 排序 , 然后 分 别 设 
置 阔 值 进行 过 滤 ， 从 而 得 到 突 发 特征 集合 。 

另外 ， 有 些 研究 工作 利用 频谱 分 析 方 法 进行 突 发 特征 和 话题 的 检测 ， 如 [He et al., 
2007a] 采用 离散 傅立叶 变换 (DFT) 把 信号 从 时 域 转换 为 频 域 , 使 得 时 域 中 的 突 发 话题 
对 应 于 频 域 中 的 尖峰 , 利用 频 域 属性 识别 突 发 特征 及 其 相关 的 期 间 。 在 得 到 突 发 特征 集 
RUE, 再 将 突 发 特征 进行 聚 类 以 生成 突 发 话题 。 

在 [He et al., 2007b] 中 , 首先 利用 Kleinberg 算法 进行 突 发 特征 的 识别 , 为 每 个 时 
间 窗 t 中 的 每 个 突 发 特征 f;(t) 计算 一 个 突 发 权重 w(t) 之 后 在 文档 表示 时 将 w(t) 与 
TF-IDF 权重 的 加 权 值 tf-idfij + 6w;(t) 作为 突 发 特征 的 动态 权重 。 基 于 该 动态 权重 在 
TDT3 语 料 上 进行 了 话题 聚 类 和 分 类 实验 ,其 效果 明显 优 于 传统 的 方法 。 

[Fung et al., 2005] 基于 生成 式 概率 模型 提出 了 一 种 以 特征 为 中 心 的 突 发 事件 检测 
方法 。 该 方法 首先 将 文本 流 按 天 进行 时 间 窗 口 的 切 分 D = {qdi, qd2,…}, 其 中 di 表示 在 
第 i 天 发 布 的 文本 。 然后 , 根据 特征 (这 里 指 词 项 ) 在 每 天 的 文本 中 出 现 的 概率 与 其 在 全 
局 数据 中 的 概率 进行 比较 , 第 选 出 一 组 突 发 特征 。 随 后 将 这 组 突 发 特征 进行 分 组 ,对 应 


不 同 的 突 发 事件 , 每 个 突 发 事件 包含 一 部 分 突 发 特征 。 最 后 再 对 每 个 突 发 事件 按 天 进行 
突 发 期 识别 。 图 8.9 给 出 了 该 方法 的 示意 图 。 
ma 
I 八 、 LA 0 
| _ | i AN IN 2 - 
= | 
文本 流 = — i 
了 > | As 0 
识别 突 发 特征 将 突 发 特征 按 事件 分 组 确定 事件 突 发 期 


图 8.9 基于 概率 模型 的 突 发 特征 抽取 与 突 发 话题 检测 方法 [Fung et al., 2005] 


针对 社交 媒体 文本 的 特殊 性 ，[Cataldi et al., 2010] 提出 了 一 种 基于 内 容 老 化 理 
W (content aging theory) 的 突 发 特征 抽取 和 突 发 话题 检测 方法 。 首 先 为 每 个 时 间 窗 
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TW 的 每 个 特征 大 定义 一 个 营养 度 Cnutrition)， 营 养 度 考虑 了 词 频 信 息 和 用 户 权 威 
度 的 因素 。 据 此 定义 特征 在 时 间 窗 TW 中 的 能 量 Cenergy) 为 特征 大 在 当前 时 间 窗 
TW! 的 营养 度 与 前 s 个 时 间 窗 内 营养 度 平方 差 均 值 ， 并 将 之 作为 衡量 特征 大 在 时 间 窗 
TW 中 突 发 度 的 指标 ， 能 量 值 越 大 的 特征 具有 越 高 的 突 发 度 。 根 据 窗 口 TW-* 中 的 所 有 
特征 按 能 量 值 排 序 , 得 到 当前 窗口 的 一 组 突 发 特征 集合 EK 最 后 ， 以 窗口 中 的 特征 作 
为 节点 , 特征 间 的 相关 系数 作为 边 的 权重 , 构建 一 个 特征 关系 图 TG’, 通过 包含 突 发 特 
征 的 强 连通 子 图 来 对 突 发 话题 进行 进行 排序 和 话题 标注 。 
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话题 检测 与 跟踪 是 21 世纪 初期 文本 挖 据 研究 领域 一 个 较为 活跃 的 研究 方向 。 该 方 
向 近年 来 的 研究 进展 一 方面 体现 在 传统 任务 面向 新 的 社交 媒体 应 用 场景 出 现 的 改变 , 这 
部 分 内 容 我 们 在 8.7 节 和 8.8 节 已 经 进行 了 详细 介绍 。 另 一 方面 , 出现 了 一 些 工作 试图 
将 最 新 的 机 器 学 习 理 论 方法 应 用 到 该 任务 上 , 如 [Fang et al., 2016] 基于 分 布 式 表示 改进 
传统 的 特征 空间 ， 以 提高 报道 和 话题 的 表示 和 相似 度 计 算 的 性 能 。 然 而 由 于 基于 深度 学 
习 的 聚 类 模型 目前 所 见 不 多 ， 而 话题 检测 与 跟踪 任务 使 用 最 多 的 是 聚 类 算法 ,因此 基于 
深度 学 习 的 话题 检测 与 跟踪 研究 尚 不 多 见 。 

同时 ， 话 题 检测 与 跟踪 与 文本 挖掘 的 多 个 热点 领域 是 相互 联系 的 。 前 文 已 经 提 到 ， 
话题 检测 与 跟踪 与 信息 检索 和 抽取 的 关系 密切 。 除 此 之 外 , 它 还 与 情感 分 析 、 事 件 抽取 
等 任务 也 有 较为 密切 的 关系 。 

话题 检测 与 跟踪 与 情感 分 析 任 务 相 结合 , 不 仅 可 以 有 效 地 检测 热点 话题 , 还 可 以 识 
别 出 人 们 对 该 话题 的 看 法 和 评价 。 利 用 话题 检测 技术 ， 从 社交 媒体 中 检测 出 最 新 的 话题 ， 
并 将 文本 及 时 地 按照 话题 进行 组 织 。 基 于 话题 跟踪 技术 , 监控 信息 流 以 发 现 与 某 一 已 知 
话题 有 关 的 后 续 报道 。 同时 , 将 情感 分 析 技 术 结 合 进 来 , 分 析 报 道 及 话题 所 对 应 的 评论 
的 极 性 倾向 和 强度 , 实现 社会 热点 事件 发 现 与 与 情 分 析 。 

话题 检测 与 跟踪 与 事件 抽取 方向 也 有 着 较 强 的 关联 性 , 前 者 强调 文档 集合 的 面向 宏 
观 事 件 的 自动 组 织 , 后 者 注重 文本 中 的 细 粒 度 的 事件 识别 及 元 素 抽 取 , 一 个 粗 粒度 , 一 
个 细 粒 度 。 话题 检测 与 跟踪 方面 的 研究 围绕 TDT 相关 评测 展开 ; 而 事件 抽取 方面 的 研 
究 则 围绕 ACE (automatic content extraction) 和 KBP (knowledge base population ) 评 
测 中 的 事件 相关 任务 展开 , ACE 主导 了 2000 年 到 现在 的 研究 区 间 , KBP 则 为 时 下 较为 
热门 的 评测 任务 。 
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9.1 H 述 


海量 文本 数据 有 助 于 用 户 获 取信 息 并 拓展 人 类 知识 的 边界 , 但 是 绝 大 多 数 文本 内 容 
不 利于 计算 机 处 理 和 理解 。 据 统计 ,互联 网 中 超过 80% 的 文本 信息 以 非 结构 化 的 形式 存 
在 , 这 些 非 结构 化 的 文本 数据 极 大 地 增加 了 用 户 获 取信 息 的 难度 和 成 本 。 因 此 ， 吸 须 一 
种 技术 ,能 够 自动 分 析 非 结构 化 的 文本 数据 ， 从 中 挖掘 相关 且 有 价值 的 知识 ， 并 以 结构 
化 形式 呈现 给 用 户 , 于 是 信息 抽取 (information extraction, IE) 技术 应 运 而 生 。 

信息 抽取 是 指 从 非 结构 化 或 半 结 构 化 的 自然 语言 文本 〈 如 网 页 新 闻 、 学 术 文 献 、 社 
交 媒 体 等 ) 中 抽取 实体 、 实体 属性 、 实体 之 间 的 关系 以 及 事件 等 事实 信息 , 并 形成 结构 化 
数据 输出 的 一 种 文本 数据 挖掘 技术 [Sarawagi, 2008]. 不 同 于 信息 检索 技术 依据 具体 查询 
语句 从 文档 集合 或 开放 的 互联 网 中 搜索 相关 文档 或 网 页 , 信息 抽取 技术 旨 在 产生 机 器 可 
读 的 结构 化 数据 , 直接 为 用 户 提 供 问 题 的 答案 , 而 不 是 让 用 户 从 众多 相关 的 候选 文档 中 
查找 答案 , 或 者 为 后 续 的 智能 问答 和 自动 决策 等 任务 提供 技术 支撑 。 例如， 用户 希望 从 
相关 新 闻 报 道中 抽取 自然 灾害 事件 的 有 关 信息 , 包括 : 自然 灾害 的 名 称 、 时 间 、 地 点 、 灾 
害 后 果 等 ; 或 者 从 医疗 档案 、 病 例 中 抽取 某 种 疾病 的 信息 , 包括 : 病因 、 症 状 、 药 物 、 效 
果 等 ; 或 者 从 某 公 司 收购 另 一 公司 的 报道 中 抽取 关于 收购 事件 的 信息 , 包括 : 收购 者 、 被 
收购 者 、 时 间 、 金额 等 。 

典型 的 信息 抽取 任务 包括 命名 实体 识别 (NER)、 实体 消 歧 (entity disambiguation) 、 
关系 抽取 (relationship extraction) 和 事件 抽取 (event extraction) 。 如 图 9.1 所 示 , WA“ 
歌 收购 DeepMind” 的 新 闻 报 道 为 例 , 信息 抽取 将 识别 这 一 事件 的 时 间 、 人 物 名 称 、 地 方 
名 称 和 机 构 名 称 等 实体 ,并 分 析 这 些 实体 之 间 的 关系 〈 例 如 “ 拉 里 。 佩 奇 ” 是 “谷歌 公 
司 ” 的 “CEO”), 最 终 抽取 出 关于 公司 收购 这 一 事件 的 全 部 具体 信息 。 

不 同 的 事件 类 型 对 应 于 不 同 的 事件 表示 格式 , 例如 , 在 图 9.2 所 示 的 恐怖 袭击 事件 
中 ,除了 时 间 和 地 点 信息 以 外 , 还 应 该 准确 地 抽取 出 人 员 的 伤亡 情况 。 

信息 抽取 研究 可 追溯 至 20 世纪 70 年 代 末 。 从 20 世纪 80 年 代 后 期 开始 , 美国 政府 
资助 了 一 系列 有 关 信 息 抽取 技术 的 评测 活动 ， 该 技术 得 到 了 快速 发 展 。1987 年 , 美国 国 
防 高 级 研究 计划 局 (DARPA) 为 了 评估 信息 抽取 技术 的 性 能 ， 启 动 了 第 一 届 消 息 理解 会 
W (Message Understanding Conference, MUC1!), 邀请 国际 上 多 家 研究 机 构 在 DARPA 


‘http://www-nlpir-nist.gov /related_projects/muc/ 
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| 2014 年 1 月 ， 谷 歌 斥 资 4 亿美 元 | ,事件 类 型 :公司 收购 

| 收购 人 工 智 能 公司 DeepMind 。 ! | 名 称 : 谷歌 收购 DeepMind 
| DeepMind 总 部 位 于 伦敦 ， 游戏 | 收购 者 : 谷歌 

! aanp aae diia 被 收购 者 : DeepMind 

| 比 斯 ， 创 办 人 包括 Skype 和 Kazaal 时间， 2014 年 1 月 


| 开发 者 让 塔林 和 研究 者 谢恩。 莱 | | 
He. 谷歌 CEO 拉 里 . 佩 奇 亲 自 领 | 。 | 金额 :4 亿美 元 
| 导 了 这 笔 交易 | jes 
(a) 原 新 闻 报 道 (b) 抽取 后 的 结果 


图 9.1 从 新 闻 报道 中 抽取 “谷歌 公司 收购 DeepMind ”事件 的 示例 


| 2017 年 3 月 22 日 下 午 14 时 许 〈 当 } | | 事件 类 型 ， 恺 怖 袭击 
| 地 时 间 ) ， 英 国 议会 大 厦 成 斯 | ”| 具体 类 型 :枪击 事件 
| ea | TTA): 2017 年 3 月 22 日 下 午 14 时 许 | 
1 2 间 ， a Hogs aes | 
| 《包括 1 名 警察 和 1 名 恺 怖 分 子 在 D AM: 英国 议会 大 厦 

| 内 ) 在 伦敦 市 中 心 的 袭击 事件 中 | 。 | 死亡 人 数 : 5 


| 死亡 ， 另 有 40 多 人 受伤 ,死者 | | 
| 中 包括 袭击 者 本 人 。 Hr 
和 Ont 。 MAUNA 


图 9.2 AAR PAS P Soh Ha ei ei EEE as 


提供 的 标准 数据 集 上 进行 技术 对 比 。 例 如 , 给 定 10 篇 海军 军事 情报 文本 ， 要 求 信息 抽 
取 系 统 输出 文本 中 总 含 的 命名 实体 和 实体 之 间 的 共 指 关系 等 。MUC 会 议 从 1987 年 到 
1997 年 一 共 举 行 了 七 次 信息 抽取 评测 , 抽取 对 和 象 主要 集中 于 限定 领域 的 文本 , 包括 海军 
军事 情报 、 榴 怖 袭击 、 人 事 职位 变动 以 及 飞机 失事 等 , 抽取 任务 包括 命名 实体 识别 、 共 指 
消解 、 模 板 关系 抽取 和 模板 填充 等 。 

1999 年 ， 自 动 内 容 抽 取 (Automatic Content Extraction, ACE!) 会 议 开 始 取 代 
MUC, 并 且 关 注 更 加 广泛 的 新 闻 数 据 和 对 话语 料 , 例如 政治 和 国际 事件 , 抽取 更 加 细 粒 
度 的 实体 类 型 (例如 设施 名 称 和 地 缘 政 治 实体 等 )、 实 体 关系 和 事件 。 ACE 一 直 进 行 到 
2008 年 , 在 后 期 的 几 届 评测 中 , 抽取 任务 也 相应 地 提升 了 难度 ,如 增加 了 多 语言 (英语 、 
汉语 和 阿拉 伯 语 ) 信息 抽取 、 实 体检 测 与 跟踪 等 任务 。 

MUC 和 ACE 系列 会 议 为 研究 这 一 问题 提供 了 若干 标准 测试 数据 ， 对 该 领域 
的 发 展 起 到 了 至 关 重 要 的 作用 。 从 2009 年 开始 ，ACE 成 为 文本 分 析 会 议 (Text 
Analysis Conference, TAC?) 的 一 项 子 任务 , 即 知识 库 填 充 (knowledge base population, 
KBP) 。KBP 从 2009 年 至 今 每 年 举办 一 次 。KBP 更 加 关注 开放 领域 的 数据 (如 Web 


‘https: //www.ldc.upenn.edu/collaborations/past-projects/ace 
?https://tac.nist.gov/ 
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网 页 ), 抽取 任务 主要 包括 实体 属性 抽取 和 实体 链接 。 例 如 ， 从 两 百 万 的 新 闻 网 页 中 发 现 
某 个 给 定 实体 (如 “乔布斯 ”) 的 所 有 相关 信息 (实体 属性 抽取 ), 并 且 将 这 些 信 息 填 充 到 
给 定 的 知识 库 中 (实体 链接 )。 

其 他 一 些 会 议 也 关注 信息 抽取 任务 ,如 计算 自然 语言 学 习 会 议 (Conference on 
Computational Natural Language Learning, CoNLL!) 于 2003 年 举办 了 语言 无 关 的 命 
名 实体 识别 任务 , SIGHAN? (Special Interest Group on Chinese Language Processing, 
ACL) 于 2006 年 和 2007 年 举办 了 两 次 命名 实体 识别 评测 ， 也 有 效 推动 了 信息 抽取 技术 
HER. 在 国内 ， 由 中 国 中 文 信息 学 会 主办 的 全 国 知识 图 谱 与 知识 计算 大 会 (CCKS3) 
和 由 中 国 计 算 机 学 会 主办 的 自然 语言 处 理 与 中 文 计算 国际 会 议 (NLPCC4) 近年 来 都 组 
织 了 面向 汉语 的 命名 实体 识别 和 实体 链接 任务 , 积极 推动 了 我 国信 息 抽 取 技 术 的 发 展 。 

综 上 所 述 , 信息 抽取 技术 可 以 从 不 同 的 维度 进行 分 类 。 如 果 从 输入 数据 的 领域 范围 
考虑 ,可 以 分 为 限定 领域 和 开放 领域 两 类 ; 如 果 从 抽取 的 结果 类 型 考虑 ， 可 分 为 实体 抽 
取 、 关 系 抽取 和 事件 抽取 等 几 类 ; 而 从 实现 的 技术 方法 划分 , 又 可 分 为 规则 方法 、 传统 的 
统计 方法 和 深度 学 习 方 法 。 

本 章 以 限定 领域 的 非 结构 化 文本 数据 为 处 理 对 象 , 按 抽取 的 结果 类 型 分 别 介 绍 命名 
实体 识别 、 实体 消 层 、 关 系 抽取 和 事件 抽取 等 相关 任务 的 技术 方法 。 


9.2 ”命名 实体 识别 


命名 实体 识别 Cnamed entity recognition) 是 自然 语言 处 理 中 的 一 项 基本 任务 , 在 
信息 抽取 中 由 在 识别 出 文本 中 指定 类 别 的 实体 。 这 些 实体 主要 包括 七 类 : 人 名 、 地 名 、 组 
织 机 构 名 、 时 间 、 日 期 货币 或 其 他 数量 及 百分比 等 。 由 于 时 间 、 日 期 、 货 币 或 其 他 数量 
及 百分比 的 构成 具有 较为 明显 的 规律 , 通常 采用 正则 表达 式 基 本 可 以 准确 地 识别 , 而 人 
名 、 地 名 和 组 织 机 构 名 的 识别 则 面临 相当 大 的 困难 , 因此 目前 NER 相关 的 研究 基本 都 
以 这 三 种 实体 的 识别 为 主要 研究 目标 。 

命名 实体 识别 任务 可 以 进一步 划分 为 实体 检测 和 分 类 两 个 子 任务 。 其 中 , 实体 检测 
任务 是 指 对 于 给 定 的 一 段 文本 , 检测 出 哪些 词 串 属 于 实体 , 即 确定 实体 的 开始 和 结束 边 
界 。 实 体 分 类 任务 则 是 对 检测 出 的 实体 进行 类 别 判断 。 

以 上 面 图 9.1 Ca) 中 的 最 后 一 句 话 “ 谷 歌 CEO 拉 里 。 佩 奇 亲 自 领 导 了 这 笔 交 易 ” 为 
例 , 检测 任务 首先 发 现 “ 谷 歌 ” 和 “ 拉 里 。 佩 奇 ” 是 两 个 实体 。 随 后 分 类 任务 确定 “谷歌 
和 “ 拉 里 。 佩 奇 ”分 别 是 机 构 名 和 人 名 。 


‘http://www.signll.org/conll 

*http://sighan.cs.uchicago.edu/ 

3China Conference on Knowledge Graph and Semantic Computing (CCKS) 2016 年 组 织 了 实体 链接 和 预 
测 的 评测 ，2017 年 举办 了 电子 病历 命名 实体 识别 和 问题 命名 实体 识别 与 链接 的 评测 ,2018 年 组 织 了 面向 中 文 电子 病历 的 
命名 实体 识别 的 评测 。 

4CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC) 
2013 至 2015 年 连续 三 年 组 织 了 面向 汉语 的 实体 链接 评测 任务 。 
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由 于 命名 实体 识别 是 自然 语言 处 理 中 一 项 基础 性 的 关键 技术 ,已 有 大 量 的 论著 介绍 
相关 的 研究 ， 因此 本 书 不 对 这 些 技术 方法 给 予 详细 的 阐述 。 以 下 只 对 基于 规则 的 方法 、 
有 监督 的 机 器 学 习 方法 和 半 监 督 的 机 器 学 习 方 法 分 别 在 人 名 、 地 名 和 组 织 机 构 名 三 类 命 
名 实体 识别 中 的 应 用 情况 做 简要 的 介绍 。 


9.2.1 ”基于 规则 的 命名 实体 识别 方法 


由 于 人 名 、 地 名 和 组 织 机 构 名 在 内 部 构成 和 外 部 上 下 文 环境 方面 具有 一 定 的 规律 可 
循 ， 因 此 , 早期 的 命名 实体 识别 研究 多 以 基于 规则 的 方法 为 主 , 其 中 正则 表达 式 是 一 种 
常用 的 方法 。 
人 名 的 构成 特点 在 三 类 实体 中 最 为 鲜明 , 而 且 无 论 对 于 哪 一 种 语言 (英语 、 汉语 和 
日 语 等 )， 相 对 而 言 ， 人 名 是 最 容易 识别 的 一 类 命名 实体 。 例如, 在 英语 中 ， 人 名 在 书写 
格式 方面 都 是 以 大 写字 母 开 始 ， 且 在 上 下 文中 可 能 会 有 “Mr.”、“Dr.” 和 “Prof.” 等 称谓 
词 。 因此 , 可 以 设计 一 种 正则 表达 式 “Title [capitalized-token 十 ] ”高效 地 识别 这 类 人 名 。 
该 正则 表达 式 说 明 ， 如 果 当 前 词 的 前 驱 是 称谓 词 ， 并 且 当 前 词 以 大 写字 母 开 始 ,那么 该 
词语 将 被 识别 为 人 名 。 例 如 ,“Prof. Knight leaves school” 依 据 上 述 正则 表达 式 可 以 确 
定 Knight 是 人 名 。 

在 汉语 中 ， 人 名 构成 的 规律 性 更 强 , 绝 大 多 数 人 名 由 两 到 三 个 汉字 组 成 , 而 且 汉 语 
人 名 的 用 字 非 常 集中 。 例如 ,常见 的 姓氏 用 字 300 个 左右 , 并 且 据 统计 前 十 位 频率 最 高 
的 姓氏 用 字 〈“ 李 、 王 、 张 、 刘 、 陈 、 杨 、 赵 、 黄 、 周 、 吴 ”) 占据 约 40%。 汉语 名 字 用 字 也 
相对 集中 , 据 统计 , 常用 字 为 1000 个 左右 。 在 上 下 文 构成 方面 , 汉语 人 名 同样 存在 突出 
的 特点 。 例如 入 名 前 后 的 称谓 “先生 ”“ 女 士 " “局长”"”“ 教 授 ” 等 , 而 且 人 名 后 面 经 常 出 
现 的 “说 ”“ 指 出 “表示 ”等 动词 , 这 些 信息 都 是 识别 人 名 或 者 排斥 不 可 能 候选 的 关键 
线索 。 所 以 , 除了 尽量 多 地 收集 著名 人 物 的 姓名 , 将 其 列 入 确定 的 词 表 , 以 备 直接 对 比 以 
外 ,借助 姓氏 和 名 字 用 字 词 典 可 以 挑选 出 人 名 候选 , 然后 结合 称谓 等 线索 词 , 通过 规则 
可 以 较为 准确 地 识别 很 大 一 部 分 的 人 名 。 刘 开 瑛 (2000) 等 曾 将 姓氏 用 字 作 为 触发 , 确定 
候选 姓名 的 左边 界 ， 然 后 通过 计算 姓氏 用 字 右 边 的 两 个 字 或 三 个 字 成 为 名 字 的 概率 ， 筛 
选 出 可 能 性 较 大 的 候选 姓名 , 最 后 通过 规则 方法 排除 不 能 的 候选 ， 最 终 确 定 相 关 字 串 是 

组 织 机 构 名 和 地 名 也 具有 一 定 的 构成 规律 。 以 汉语 为 例 , 很 多 组 织 机 构 名 以 “大 学 ” 
“公司 ”“ 集 团 ”“ 中 心 ” 等 词语 结尾 , 而 地 名 多 以 “市 ”“ 县 ”“ 镇 "”“ 乡 ”“ 街 道 ” 等 词语 
结尾 , 特点 非常 鲜明 。Chen and Zong (2008) 曾 对 组 织 机 构 名 的 组 成 规律 做 过 详细 的 分 
析 。 但 是 , 这 些 线索 词 只 能 确定 部 分 实体 的 右边 界 , 尤其 左边 界 的 确定 面临 很 大 的 挑战 ， 
而 实体 所 在 的 上 下 文 很 难 提供 足够 多 的 显 式 信息 帮助 确定 左右 边界 。 因 此 , 构建 大 规模 
机 构 名 库 和 地 名 库 成 为 一 个 比较 务实 的 解决 方案 。 

无 论 如何 , 即使 拥有 大 规模 的 人 名 、 机 构 名 和 地 名 库 , 基于 规则 的 命名 实体 识别 方 
法 仍然 面临 诸多 挑战 。 一 方面 , 文本 中 某 个 短语 可 能 同时 出 现在 不 同类 型 的 实体 库 中 ， 
例如 “沈阳 ” 既 可 能 是 人 名 , 也 可 能 是 地 名 , 或 者 出 现在 某 些 组 织 机 构 名 中 ; 另 一 方面 ， 
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些 普 通 词语 有 时 也 是 某 类 实体 ,例如 “高 峰 ”“ 高 山 ”““ 温 馨 ” 等 既是 普通 词 也 是 人 名 
此 外 , 很 多 实体 在 文本 中 经 常 以 缩写 的 方式 呈现 , 例如“ 中国 科 学 院 ” 经 常 写成 “中 科 
院 ”,“ 人 大 ”有 时 候 指 “中 国人 民 代 表 大 会 ”， 有 时 候 指 “ 中 国人 民 大 学 ”而 实体 库 很 难 
将 所 有 的 缩写 形式 都 包含 进去 。 更 为 重要 的 是 , 新 的 命名 实体 尤其 是 人 名 和 机 构 名 , 随 
着 时 间 在 不 断 涌现 , 其 规律 性 也 在 悄悄 地 发 生 改变 。 另 外, 很 多 外 来 实体 的 译名 (无 论 
是 人 名 、 地 名 , 还 是 组 织 机 构 名 ) 规律 性 很 难 把 握 。 这些 问题 都 使 基于 实体 库 对 比 和 规 
则 分 析 的 方法 难以 应 对 , 无 法 获得 很 高 的 识别 准确 率 。 另 外 , 基于 规则 的 方法 还 面临 系 
统 维护 方面 的 问题 , 需要 不 断 修改 或 添加 新 的 规则 , 而 新 添加 的 规则 容易 与 已 有 的 规则 
形成 冲突 。 因 此 , 如 何 构建 从 数据 中 自动 学 习 命名 实体 识别 模型 越 来 越 多 地 受到 人 们 的 
关注 。 


9.2.2 ”有 监督 的 命名 实体 识别 方法 


假设 我 们 有 一 批文 本 数据 ,其 中 所 有 的 人 名 、 地 名 和 组 织 机 构 名 都 进行 了 人 工 标注 ， 
即 人 工 标定 了 文本 中 所 有 实体 的 左右 边界 和 类 型 , 如 图 9.3 所 示 的 例子 。 那么, 基于 这 些 
正确 标注 的 样本 数据 进行 命名 实体 识别 建 模 ， 即 为 有 监督 的 命名 实体 识别 方法 。 


| 事件 发 生 在 武汉 市 /Loc 的 界限 路 /Loc 。 H 
| 陈 明 亮 /PER 是 一 所 小 学 的 校长 i 
| 北京 市 发 改 委 /ORG 出 台 了 政策 。 i 
| 国 科大 /Loc 是 最 近 新 成 立 的 一 所 大 学 。 | 


St 


图 9.3 命名 实体 训练 实例 


在 有 监督 的 命名 实体 识别 方法 研究 中 ， 人 们 通常 将 这 个 任务 视 为 一 种 序列 标注 
(sequence labeling) 问 题 。 序 列 标注 模型 首先 需要 确定 类 别 标签 集合 和 标注 的 语言 单位 
粒度 。 其 中 ,“BIO” 是 一 种 被 广泛 采用 的 类 别 标签 集 .。“B” 表 示 实 体 的 开始 ,“I” 表示 
实体 的 内 部 ,“O” 表 示 非 实体 部 分 。 对 于 人 名 、 地 名 和 组 织 机 构 名 三 类 命名 实体 , 可 以 
使 用 7 种 标签 分 别 区 分 : PER-B、PER-I、LOC-B、LOC-I、ORG-B、ORG-I 和 0O。 其 
中 “PER”、“LOC” 和 “ORG” 分 别 表 示人 名 、 地 名 和 组 织 机 构 名 , 即 PER-B 表示 人 名 
的 起 始 单位 ， PER-I 表示 该 语言 单位 属于 本 人 名 。 其 余 标签 的 含义 类 似 。 

在 选择 标注 的 语言 单位 粒度 时 ,可 以 对 词 进行 标注 , 例如 “中 国人 民 银 行 ”标注 为 : 
中 国 /ORG-B 人 民 /ORG-I 银行 /ORG-I, 但 这 种 标注 方式 需要 首先 对 句子 进行 词语 切 
分 , 命名 实体 识别 的 效果 直接 受到 分 词 精度 的 影响 。 因此 , 现在 主流 的 方法 通常 直接 采 
用 “ 字 ” 作 为 标注 单位 , 例如 “中 国人 民 银 行 ” 标 注 为 : 中 /ORG-B 国 /ORG-I 人 /ORG-I 
民 /ORG-I 银 /ORG-I 行 /ORG-I。 这 里 所 说 的 “ 字 ” 泛 指 : 汉字 、 标 点 符号 、 数 字 、 其 他 
语言 的 字符 等 。 

对 于 图 9.3 给 出 的 人 工 标注 例子 , 根据 基于 字 的 标注 范式 可 以 将 其 转换 为 图 9.4 所 
示 的 形式 。 
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| 事 /o 件 /0 发 /o 生 /o 在 /o 武 /Loc-B 汉 /LDc-! 市 /Loc-! 的 /o 界 /LOC-B 限 /LOC-1 路 /LOc-I « i 
| 陈 /PER-B 明 /PER-| 亮 /PER-| 是 /0 一 /0 所 /0 小 /o 学 /0 的 /o 校 /o 长 /o 。 i 
| 北 /ORG-B 京 /ORG-! 市 /ORG-! 4Z/ORG-| 改 /ORG-! 委 /ORG-! 出 /o 4/0 了 /o Buo 策 /0 。 i 


/ORG-B 科 /ORG-! 大 /ORG-! 是 /0 最 /0 近 /o 新 /0 成 /0 立 /o 的 /0 一 /0 所 /0 大 /0 学 /o 。 


图 9.4 基于 字 的 命名 实体 标注 实例 


形式 化 地 , 给 定 M 个 句子 组 成 的 训练 数据 D = {(Xm, Ym) Xm 表示 汉字 
E, Ym 是 与 Xm 等 长 的 标签 序列 ,Yiw; E{ORG-B, ORG-I, LOC-B, LOC-I, PER- 
B，PER-I，O} 表 示 第 ; 个 汉字 Xmi 对 应 的 正确 标签 。 基 于 序列 标注 模型 的 命名 实体 识 
别 方法 由 在 设计 一 个 参数 模型 f (0), 从 D 中 学 习 到 合理 的 模型 参数 0*。f (0*) 用 于 对 
测试 句子 进行 序列 标注 ， 如 图 9.5 所 示 , 对 于 输入 的 句子 (底下 一 行 的 汉字 串 )， 生成 一 
个 合理 的 标签 序列 (上面 一 行 的 标签 序列 ) 。 


图 9.5 基于 序列 标注 的 命名 实体 识别 示例 


序列 标注 建 模 的 方法 有 很 多 ,以 下 介绍 三 种 代表 性 的 NER 建 模 方法 。 
1. 基于 隐 马 尔 可 夫 模 型 的 命名 实体 识别 方法 


给 定 一 个 待 标注 的 句子 X = zoz1… zr〔 称 为 观测 值 ), 序列 标注 模型 希望 搜索 一 
个 标签 序列 Y = yoy yr MER AED, 使 得 后 验 概率 P(Y|X) 最 大 。 隐 马尔 可 夫 
模型 (hidden Markov model, HMM) 利用 贝 叶 斯 规则 对 后 验 概率 P (Y |X) 进行 分 解 : 
P(X,Y) P(Y)xP(XIY) 
P(X) P(X) 


P(Y|X) (9.1) 
由 于 概率 P(X) 在 给 定 句 子 后 不 再 变化 , 对 任何 标签 序列 都 没有 影响 ,因此 最 大 化 条 件 
概率 已 Y|X) 可 以 转换 为 最 大 化 联合 概率 P(X,Y), 即 最 大 化 先 验 概率 P(Y) 和 似 然 
P(X|Y) 的 乘积 。 为 了 方便 计算 P(Y) Al P(X|Y), HMM 假设 标签 序列 满足 一 阶 马 尔 
可 夫 链 , 即 标签 状态 y 的 取 值 仅 与 y- AK, 观测 值 zt 仅 与 y 有关。 从而, 将 联合 
K P(X,Y) 分 解 为 如 下 的 形式 : 
T 
P(X,Y) = P (Y) x P(X|Y) = [ [P Wels) x P (zily) (9.2) 
t=0 
从 上 述 公 式 可 见 , HMM 模拟 了 句子 的 生成 过 程 。 
HMM 进一步 将 问题 简化 为 计算 P (ylye_1) 和 已 (ztlw)。 在 HMM 中 , P (ylye1) 
称 为 状态 转移 概率 ，P (edy) 为 发 射 概率 。 给 定 训练 数据 D = {(Xm, Yn) HM) 状态 转 
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移 概 率 P (ys|ys_1) 和 发 射 概率 P (xiy) 都 可 以 采用 最 大 似 然 估计 的 方式 获得 : 


count (ye_1, Yt) 


P (ylyei1) = count (y1) 


(9.3) 


count (£t, Yt) 


P (zly) = (9.4) 


count (y+) 
count (ys_1,Y) 表示 Ya 和 ye 共 现 的 次 数 。 关 于 AMM 的 详细 介绍 ， 可 参阅 文献 
[Rabiner and Juang, 1986] 和 [ 宗 成 庆 ，2013]。 

对 于 命名 实体 识别 任务 , 并 不 是 任意 两 个 标签 状态 之 间 都 可 转移 , 同一 类 实体 中 只 
有 标签 B 到 I、I 到 I、I 到 O 和 0O 到 B 之 间 存 在 转移 概率 , 其 余 的 概率 都 是 0。 由 于 某 
些 “ 字 ”和 标签 可 能 在 训练 数据 中 没有 共 现 ,因而 产生 数据 稀 朴 问题 , 通常 在 估计 发 射 概 
率 时 会 采用 平滑 算法 对 未 见 组 合 赋予 一 个 较 小 的 概率 值 。 

对 于 句子 X = rozier, AHER HMM 计算 公式 可 以 获得 任意 一 种 序列 
Y = yoy1… yr 的 后 验 概率 。 最 朴素 的 方式 是 穷 举 所 有 可 能 的 标签 序列 , 然后 根据 概率 
找 出 最 优 序列 , 但 穷 举 搜索 的 方式 效率 太 低 ， 因 此 常用 动态 规划 算法 求解 这 类 问题 。 在 
HMM 模型 中 使 用 维特 比 (Viterbi) 解码 算法 。 

维特 比 算法 需要 维持 两 组 变量 6 (y) 和 pi (y) HEP ôe (y) 记录 到 二 时 刻 为 止 以 标签 
y 结束 的 路 径 所 对 应 的 最 大 概率 ,yi (y) 记录 Oe (y) 对 应 路 径 (t — 1) 时 刻 的 标签 : 


Se (y) = max {6.—1 (y') P (yly') P (rely)} (9.5) 


p: (y) = eee {5:1 (y’) P (yly’) P (xely)} (9.6) 


当 计算 到 句子 结尾 的 第 了 个 “ 字 ” 时 ,利用 上 述 公 式 可 得 到 第 了 个 “ 字 ” 所 对 应 的 
标签 : 


a= argniax {ðn (y)} (9.7) 
然后 , 利用 下 面 的 公式 进行 回溯 ,找到 最 优 的 标签 路 径 : 
Ye = ptt (tttHl) (9.8) 


图 9.6 展示 了 一 个 基于 HMM 的 命名 实体 识别 例子 。 基 于 HMM 的 NER 方法 简单 
AXO 是 早期 的 生成 式 命名 实体 识别 方法 中 一 种 主流 的 方法 [Zhou and Su, 2002]。 但 
是 ， HMM 的 假设 过 于 苛刻 , 无 法 捕捉 更 多 更 丰富 的 上 下 文 特征 。 例 如, 图 9.6 F yr 是 
否 标注 PER-I 不 仅 依赖 前 一 个 状态 PER-I, 还 与 ys 是 否 标注 PER-B 相关 ; mH. wy 的 
取 值 不 仅仅 与 “ 佩 ” 字 相关 , 而 且 与 周围 的 “ 拉 、 里 、 奇 ”等 上 下 文 相 关 。 鉴 于 HMM 等 
生成 式 模型 在 假设 中 的 约束 过 于 严格 , 限制 了 更 多 信息 的 利用 ， 从 而 制约 了 识别 性 能 的 
进一步 提升 , 因此 判别 式 模型 逐渐 受到 青睐 ,其 中 条 件 随 机 场 模型 (CRF) 是 使 用 最 为 
广泛 的 一 种 判别 式 序列 标注 模型 。 
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图 9.6 基于 HMM 的 命名 实体 识别 方法 


2. 基于 条 件 随机 场 模型 的 命名 实体 识别 方法 


条 件 随机 场 (conditional random field, CRF) 模型 [Lafferty et al., 2001] 是 一 种 无 向 
图 判别 式 模型 , 对 应 序列 标注 任务 的 是 线性 链条 件 随 机 场 模型 (linear-chain CRF) 。 在 条 
件 随机 场 模型 中 , 对 于 给 定 的 输入 序列 X = zoz1… zz, 其 标签 状态 序列 Y = yoyi yr 
的 条 件 概率 P(Y |X) 为 : 


PCYIX) = Kerf EEN (Yea, 0X, o} (9.9) 
t=1 k 
SEH, fic (in ye Xt) 表示 作用 于 标签 状态 和 汉字 序列 的 任意 特征 函数 ,和 > 0 是 
特征 函数 fe (ea, ye, Xt) 的 权重 ,表明 该 特征 函数 的 贡献 大 小 ,需要 从 训练 数据 
D = {(Xm, Ym)} a PAIRE. 特征 函数 fi (yeas ye, X,t) 的 定义 和 参数 权重 Xk 的 
学 习 是 CRF 模型 的 核心 [McCallum and Li, 2003]。 
形式 化 地 , 特征 函数 fic (Yer, yes X, t) 将 离散 特征 组 合 映射 至 布尔 变量 , 举例 如 下 : 


1, if y-1ı = ORG — B, y = ORG — I, r, = 歌 
0, 否则 


fr (Yt-1, Yt, X,t) = { (9.10) 

上 述 特征 函数 表明 ,如 果 前 一 个 时 刻 的 标签 是 ORG-B， 当 前 时 刻 的 字 是 “ 歌 ”， AS 
么 ， 当 前 字 的 标签 是 ORG-I 时 ， fe (yea, ye, X,t) 的 取 值 为 1; 否则 为 0。 对 于 ye_1、 Ye 
和 zt 的 取 值 及 其 组 合 方式 可 以 枚 举 出 若干 , 通常 将 每 一 个 特征 函数 f(y_1, yes X, t) 称 
为 一 类 特征 模板 。 对 于 命名 实体 识别 任务 来 说 , 可 利用 的 特征 模板 有 很 多 , 表 9.1 列举 了 
一 些 常见 模板 的 描述 。 


表 9.1 NER 中 常用 的 特征 模板 


词汇 化 特征 当前 字符 re, 前 驱 字 符 teis 后 续 字 符 tepi 字符 组 合 zt -lzt，zrtzt+l， 
eee 等 

标签 特征 当前 标签 ye 前驱 标签 yei 标签 组 合 yeye 等 

标签 词汇 组 合 特征 TtYt» Yt—1Tt» Ye-1Teye 等 

词典 特征 字符 串 zt_alzt、zriztH、zZt_i7tZt_1.… 是 否 在 给 定 的 词典 中 


根据 模板 可 从 训练 数据 D = {(Xm, Yn) FY, 中 抽取 出 数 十 万 甚至 数 百 万 个 特征 ， 
每 一 个 特征 对 应 一 个 需要 学 习 的 参数 权重 入 ,而 Ag 的 学 习 与 具体 的 命名 实体 识别 任 


9.2 命名 实体 识别 179 


务 无 关 ,可 采用 常规 的 CRE 训练 算法 获得 , 一 般 可 通过 CRF 开源 工具 (如 CRF++1) 
得 到 。 

Zx 是 归 一 化 因子 , 在 模型 训练 过 程 中 需要 通过 前 向 后 向 算法 进行 求解 ， 相 关 细 节 
可 参考 [Sutton and McCallum, 2012]. 参数 的 优化 目标 是 最 大 化 整个 标注 数据 上 的 条 件 
似 然 : 


M 
L(A) = > log (P (Ym|Xm, A)) + logp (A) (9.11) 
m=1 
其 中 , p(A) 是 参数 的 先 验 概率 。 在 测试 时 ,由 于 只 关注 搜索 最 佳 的 标签 状态 序列 , 所 以 
归 一 化 因子 Zx 可 以 不 用 计算 , 即 求 解 : 


pi 
argmax P (Y|X) = argmax 去 em 2 Yo Nfi Yeas ye X, of 
t=1 k 


= argmax {os (> Defic Yeas X, o) } (9.12) 
t=1 k 


类 似 于 HMM 模型 ， 最 佳 标签 序列 通常 也 是 采用 维特 比 动态 规划 算法 搜索 获得 ,其 中 两 
个 变量 的 计算 公式 如 下 : 


ô: (v) = max 区 (y')exp (= ete (y's ys X ») \ (9.13) 
k 
pi (y) = argmax {is (y') exp (= debe (yy X, D) } (9.14) 
Y k 


图 9.7 是 基于 CRF 的 NER 方法 示意 图 。 与 HMM HHE, CRE 是 一 个 全 局 优化 过 
程 , 没有 独立 性 假设 ,而且 在 预测 标签 时 可 以 利用 更 多 的 上 下 文 特征 ， 因 此 最 终 的 命名 
实体 识别 效果 也 相对 更 好 。 著 名 的 斯 坦 福 大 学 命名 实体 识别 工具 (Stanford NER?) 就 
是 以 CRF 为 核心 模型 实现 的 。 但 是 , 无 论 是 生成 式 的 HMM, 还 是 判别 式 的 CRF， 都 
是 以 “ 字 ? 或 字符 串 (token ) 等 离散 符号 表示 为 基础 的 , 一 方面 可 能 产生 数据 稀疏 问题 , 如 


ORG-B ORG-I O O O k PER-B PER-I PER-I PER-I o o o o o 


Yo i y e py e ye i el ye e y e io e yu P ya P y | 
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图 9.7 基于 CRE 的 命名 实体 识别 方法 


1https://taku910.github.io/crfpp/ 
?https://nlp.stanford.edu/software/CRF-NER.shtml 
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果 某 个 字符 串 在 训练 样本 中 未 见 过 , 那么 便 无 法 预测 其 标签 ; 另 一 方面 , 这 些 方法 都 无 
法 捕捉 词语 等 字符 串 之 间 的 语义 相似 性 ， 如 “说 ”和 “ 讲 ” 两 个 词 的 语义 接近 , 但 在 字 
符 串 表 示 层 面 却 无 法 捕 提 这 些 信息 。 基 于 分 布 式 表示 的 神经 网 络 模型 善于 抽象 深层 语 
义 信息 ,可 以 捕捉 语言 单元 之 间 的 语义 相似 性 , 成 为 命名 实体 识别 研究 中 一 个 新 的 建 模 
工具 。 


3. 基于 神经 网 络 模型 的 命名 实体 识别 方法 


基于 神经 网 络 模型 的 NER. 方法 主要 任务 是 实现 特征 的 表示 和 抽象 。 首先 , 每 个 语 
言 单元 (如 “ 字 ”) 将 被 映射 到 一 个 固定 维度 的 实数 向 量 , 然后 采用 多 层 网 络 结构 学 习 语 
言 单元 序列 甚至 整个 句子 的 抽象 表示 , 最 后 在 深层 抽象 表示 的 基础 上 预测 每 个 语言 单元 
的 类 别 标签 。 

在 本 书 第 3 章 中 介绍 分 布 式 文本 表示 时 ,已 经 介绍 了 前 馈 神 经 网 络 、 递 归 神 经 网 络 、 
卷 积 神经 网 络 和 循环 神经 网 络 等 多 种 神经 网 络 模型 。 以 下 以 循环 神经 网 络 为 例 , 结合 条 
件 随机 场 模型 , 介绍 神经 网 络 模型 在 命名 实体 识别 任务 上 的 应 用 [Huang et al., 2015]. 

首先 , 我 们 介绍 一 下 循环 神经 网 络 如 何 学 习 一 个 句子 的 深层 抽象 表示 。 这 里 , 循环 
神经 网 络 采用 双向 长 短 时 记忆 模型 (bidirectional long-short term memory, Bi-LSTM) 。 
如 图 9.8 所 示 , 给 定 汉字 序列 久 = tozi er, Bi-LSTM 将 每 个 汉字 w 映射 为 低 维 
实数 向 量 表示 e; € RY COLA 9.8 底部 ), 其 中 , dy 表示 向 量 维度 ，ei 一 般 随机 初始 化 
并 在 训练 中 优化 更 新 。 前 向 LSTM 得 到 每 个 “ 字 ” 对 应 的 分 布 式 表 示 hi © Re (ds K 
示 隐 藏 层 神经 元 数目 )。 同 理 ， 后 向 LSTM 可 得 到 另 一 个 分 布 式 表示 hic RY (具体 
计算 过 程 可 参考 3.2 节 分 布 式 表示 中 的 介绍 )。 太 i 可 以 捕捉 ei 及 左 侧 的 上 下 文 信息 
eoe; iei h; 能 够 刻画 e; 及 右 侧 的 上 下 文 信息 eiei41…er。 所 以 ， Bi-LSTM 拼接 
By Al hey, DUNE hy = [We ea] E R” 捕捉 以 e; 为 中 心 的 全 局 特征 。 
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图 9.8 ”基于 Bi-LSTM-CRF 模型 的 命名 实体 识别 方法 
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如 果 Bi-LSTM 直接 用 于 命名 实体 识别 , 下面 的 公式 可 计算 汉字 zx; 对 应 的 每 个 类 别 
标签 y; {ORG-B, ORG-I, LOC-B, LOC-I, PER-B, PER-I，O} 的 概率 ; 


hi + ey, 


>》 hx ey, 
k 


其 中 , ey, E RO 表示 类 别 标签 对 应 的 分 布 式 表示 。 汉 字 zi 的 类 别 标签 对 应 最 大 概率 
的 yi。 由 于 Bi-LSTM 无 法 利用 类 别 标签 之 间 的 关系 , 无 法 排除 ORG-B PER- 这 样 的 
不 合理 组 合 , 所 以 可 以 在 Bi-LSTM 模型 之 上 采用 CRE 模型 进行 全 局 优化 , 我 们 将 其 称 
之 为 Bi-LSTM-CRF 模型 。 

Bi-LSTM-CRF 模型 同样 直接 对 条 件 概率 P(Y|X) 进行 建 模 : 


P (ys) = P (ey,) = Softmax (ey,) = (9.15) 


T 
[lw (ye-1, ye, X) 


P (YIX) = —=> (9.16) 


> [[w (viy X) 


Y’ t=1 


HH, ply, y, X) = exp (Wy yhi + byy) Wyry 和 by 分 别 是 参数 权重 和 偏 置 。 
上 式 实际 上 是 CRE 模型 在 特征 建 模 方面 的 泛 化 。 在 CRF 模型 中 ,yi (yy, X) = 


exp (sas warn) 可 以 转换 为 ve (y',y,X) = exp (Ay yF (y/,y,X,t))> HP 
k 

F (y!,y,X,t) 和 Ayy 分 别 是 特征 向 量 和 特征 权重 的 向 量 。 因此 ，Bi-LSTM 就 相当 于 自 

动 学 习 一 组 特征 向 量 FF(y,y, X,t) = hie 


Bi-LSTM-CRF 模型 的 训练 和 解码 类 似 于 CRF 模型 , 例如 , 维特 比 算法 可 根据 输入 
序列 X = xox1… zr 得 到 全 局 最 优 的 类 别 标签 序列 。 


9.2.3” 半 监督 的 命名 实体 识别 方法 


如 果 拥 有 大 规模 的 标注 数据 ， 有 监督 的 命名 实体 识别 方法 能 够 取得 较为 理想 的 性 
能 , 但 在 现实 中 命名 实体 的 标注 语 料 十 分 有 限 ,很 多 训练 集 仅 包 含 十 万 个 左右 的 句子 
而 且 无 法 覆盖 所 有 领域 , 这 就 导致 命名 实体 识别 的 性 能 , 尤其 是 领域 适应 能 力 和 泛 化 性 
能 严重 受 限 。 但 是 , 现实 中 各 种 语言 在 各 种 领域 中 都 存在 海量 的 无 标注 语 料 ， 如 果 能 够 
在 有 限 的 标注 数据 基础 上 充分 利用 无 标注 数据 , 命名 实体 识别 的 效果 完全 有 可 能 得 到 改 
善 。 基 于 这 种 想法 ， 人 们 提出 了 半 监 督 的 命名 实体 识别 方法 。 

形式 化 地 ，Di = {(Xm, Ym) Ha 表示 有 限 的 标注 数据 ,假设 无 标注 数据 集 为 
Du = (Xn) 其 中 入 > M, 基于 半 监 督 的 命名 实体 识别 方法 由 在 充分 挖掘 这 两 
类 数据 D = {Di, Ds。}。 以 下 将 从 模型 和 特征 的 角度 分 别 介绍 半 监督 的 命名 实体 识别 
方法 。 
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从 模型 的 角度 ,可 以 将 条 件 随 机 场 模 型 加 以 拓展 以 适应 无 标注 数据 , 即 半 监 督 的 条 
件 随机 场 模 型 Semi-CRF [Suzuki and Isozaki, 2008]. 在 有 监督 的 CRF 中 , 目标 函数 是 
标注 数据 中 的 条 件 似 然 : 


M 
L(A|Di) = Ý. log (P (Ym|Xm, A)) + logp (A) (9.17) 


m=1 


N 
对 于 无 标注 数据 Du = {(Xn)}a_1， 可 以 优化 边缘 似 然 P(D,) = 》)logP (Xn, 0) 


n=1 


由 于 log P(Xn,O) = >》 logP (Xn, YO), IEF, y 表示 所 有 可 能 的 标签 序列 ， 那 


Yey 


T 
4, P(Xn,Y,9) 也 可 以 通过 类 似 于 定义 P(Y|IX) = [] ve easy, X) /Zx 的 方式 
t=1 


计算 。 因 此 , 在 无 标注 数据 集 上 可 设计 如 下 目标 函数 : 
N 
£(O|Du) = >》 > logP (Xn, Y, O) + logp (©) (9.18) 


n=1Yey 


由 于 参数 O 包含 A， 因此 可 以 通过 迭代 的 方式 交互 优化 C(AIDe) All £(O|Dy, A) Bil 
如 , 可 以 先 在 标注 数据 上 优化 C(A|Du 0) (无 标注 数据 上 独 有 的 参数 (8 — A) 可 以 采用 
均匀 分 布 初始 化 ), 然后 采用 优化 后 的 A 在 无 标注 数据 上 优化 C(@|Du,A)。 更 新 后 的 @ 
再 优化 C(A|Du 8), 迭代 直至 参数 收敛 。 

从 特征 的 角度 , 无 标注 数据 有 多 种 使 用 方法 ， 既 可 以 根据 语言 单元 的 相似 性 挖掘 特 
征 , 也 可 以 通过 对 上 下 文 模式 多 样 性 分 析 挖 掘 特征 。 在 语言 单元 的 相似 性 挖掘 方面 , 一 类 
代表 性 的 方法 是 利用 语言 单元 (如 字 、 词 等 ) 在 大 规模 无 标注 数据 中 的 分 布 相似 性 挖掘 
有 效 的 特征 [Ratinov and Roth, 2009]。 有 具体 地 讲 , 采用 布朗 聚 类 (Brown clustering) 等 
算法 对 无 标注 数据 中 的 语言 单元 进行 聚 类 , 例如 “说 ”和 “直言 ”将 被 聚 为 一 类 , 假设 其 
类 别 记 为 Cu， 就 可 以 将 Cy 作为 特征 用 于 命名 实体 标签 预测 。 如 果 “ 说 ”在 已 标注 的 语 
料 中 , 而 “直言 ” 只 出 现在 无 标注 数据 中 , 由 于 它们 拥有 相似 的 上 下 文 并 且 属于 相同 的 聚 
类 Cu 那么 “直言 ”及 其 上 下 文 就 更 容易 正确 地 预测 命名 实体 的 类 别 。 

另 一 类 方法 是 挖掘 命名 实体 上 下 文 模式 的 多 样 性 。 基 本 思想 是 ， 从 无 标注 数据 中 选 
择 满足 高 置信 度 、 低 元 余 度 的 代表 性 样本 , 将 其 转换 为 标注 样本 ,以 增加 标注 数据 的 规 
模 [Liao and Veeramachaneni, 2009]。 其 转换 算法 的 流程 如 算法 9.1 所 示 , 每 一 次 迭代 
时 , 用 最 新 的 标注 数据 Dinew 训练 一 个 命名 实体 识别 模型 Ck， 并 利用 Cy 对 未 标注 的 数 
Hi D, 进行 自动 标注 。 直观 上 讲 , 可 以 从 自动 标注 结果 中 选择 置信 度 (标签 预测 概率 ) 很 
高 (例如 > 0.9) 的 样本 , 将 其 作为 标注 样本 加 入 到 训练 数据 中 。 但 是 , 这 种 简单 的 处 理 
方法 无 法 有 效 地 提升 命名 实体 识别 的 性 能 ， 因 为 置信 和 度 高 的 样本 基本 与 训练 样本 具有 相 
同 的 上 下 文 模式 , 这 就 导致 新 增加 的 样本 并 不 能 丰富 命名 实体 所 在 的 上 下 文 特征 。 因此， 
在 考虑 高 置信 度 的 同时 还 应 关注 新 样本 的 元 余 性 。 
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输入 : Di: 小 规模 标注 数据 ; Du: 大 规模 无 标注 数据 

输出 : Dinew: 新 的 标注 数据 

Dinew = Di 

for k=1 to K: 

步骤 1: 利用 CRE 模型 在 Dinew 上 训练 命名 实体 识别 模型 Ck 
步骤 2: 利用 Cr 从 Du 中 抽取 并 构建 新 的 标注 数据 Dnew 
HR 3: Diane = Dias + Drews Du = Du — Dum 


算法 9.1 基于 半 监 督 的 命名 实体 识别 算法 

步骤 2 是 上 述 算法 的 核心 。 首先, 利用 Ce 自动 标注 Dy 中 样本 ,并 计算 样本 中 
每 个 语言 单元 的 置信 度 。 若 一 个 样本 中 某 个 语言 单元 序列 sequ 被 标注 为 命名 实体 
NE € {PER,LOC, ORG}, 并 且 置信 度 大 于 也 OUT = 0.9), 这 说 明 seq,, 基本 可 以 被 确 
定 为 命名 实体 。 然后 从 Du 中 搜索 包含 seq, 的 样本 su, WR seq, 在 样本 s 中 的 置信 度 
较 低 (如 小 于 0.5, 即 虽 然 seq, 是 命名 实体 ,但 是 模型 Gi 学 到 的 特征 无 法 正确 识别 样本 
su 中 的 sequ); 说 明 seq, 在 样本 su 中 的 上 下 文 特征 与 众 不 同 ,，s 包含 实体 seq, 且 记 录 
了 关于 seq, 更 丰富 的 上 下 文 模式 。 因 此 , 样本 su 更 具 代 表 性 ,并且 包含 正确 实体 sequ» 
可 将 其 作为 标注 样本 加 入 Di-new。 

此 外 , 对 于 人 名 、 地 名 和 组 织 机 构 名 三 类 命名 实体 ,如果 Du 中 某 个 样本 s, 包含 高 
置信 度 的 实体 seq’, 并 且 seq), 的 上 下 文 是 指示 性 语言 单元 ,， 如 指示 人 名 的 “教授 ”“ 先 
生 ”“ 主 席 ” 等 称谓 词语 ， 指 示 机 构 名 的 “公司 ”“ 中 心 ” 等 ,那么 ,去掉 % 中 seg, 上 下 
文 里 的 指示 词 得 到 %%， 并 利用 Cy 对 8” 进行 自动 标注 。 如 果 seq', 的 置信 度 比较 小 , 这 
说 明 去 掉 指示 词 的 %% 能 够 提供 识别 实体 seq’, 更 丰富 的 上 下 文 模式 , 因此 将 ss 加 入 到 
Di-new 中 。 

关于 未 标注 数据 到 标注 数据 的 转换 , 除了 上 述 方 法 以 外 ,还 可 采用 协同 训练 算法 。 
这 类 方法 采用 一 种 多 视图 模型 1, 设计 两 组 独立 充分 的 特征 及 和 户 , PU fa A fo APT) 
构建 分 类 器 Cy 和 C2， 然 后 采用 迭代 的 方法 不 断 添加 新 的 标注 样本 : Cy 自动 标注 Du 
中 的 无 标注 样本 , 并 将 置信 和 度 高 的 样本 加 入 到 标注 数据 集中 , 利用 新 的 标注 数据 集训 练 
Ca; C2 自动 标注 Dy 中 其 他 的 无 标注 样本 , 同样 将 置信 度 高 的 样本 加 入 到 标注 数据 集 
中 。 将 上 述 步 又 迭代 进行 , 直至 收敛 。 不 过 , 由 于 在 命名 实体 识别 任务 中 很 难 设计 出 独立 
且 充 分 的 两 组 特征 , 因此 基于 多 视图 的 命名 实体 识别 方法 通常 不 如 上 述 两 类 方法 有 效 。 


9.2.4 ”命名 实体 识别 方法 评价 


客观 评价 命名 实体 识别 方法 的 一 般 做 法 如 下 : 选择 与 训练 数据 无 关 的 一 个 测试 文本 
Dr, 按照 训练 数据 的 标注 规范 给 测试 文本 中 的 人 名 、 地 名 和 组 织 机 构 名 等 实体 进行 人 工 
标注 ， 视 为 标准 参考 答案 DR。 假设 某 个 方法 (或 系统 ) 对 测试 文本 Dr 进行 命名 实体 自 
动 识 别 后 得 到 输出 Ds, 然后 对 比 Ds 和 DR 中 命名 实体 标注 的 一 致 性 , 根据 统计 数据 计 
算 相 应 的 指标 ， 最 终 获 得 该 方法 〈 系 统 ) 的 识别 性 能 。 
1 多 视角 是 指数 据 的 多 个 维度 , 例如 视频 中 既 有 语音 维度 , 还 有 图 像 维度 , 两 者 相互 独立 , 因此 可 视 为 两 个 视角 。 
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一 致 性 的 计算 涉及 三 个 变量 Count (correct), Count (spurious) 和 Count (missing), 
含义 如 下 : 

Count (correct): Ds 和 DR 中 标注 结果 完全 一 致 的 命名 实体 数目 ; 

Count (spurious): 在 Ds 中 是 系统 识别 出 的 命名 实体 , 但 在 参考 答案 DR 中 并 非 为 
命名 实体 的 数目 ; 

Count (missing): 在 Dr 参考 答案 中 存在 , 但 在 Ds 中 系统 未 识别 出 的 命名 实体 
数目 。 

依据 上 述 三 个 变量 ， 可 以 分 别 计算 出 命名 实体 识别 的 准确 率 (pression)、 召 回 
率 (recall) Ail Fy 值 : 


Count (correct) 


precision = Count (correct) + Count (spurious) wee 
Count (correct) 

all 9.20 

= Count (correct) + Count (missing) (9.20) 

He 2 x precision x recall (9.21) 


precision + recall 


通常 采用 Fy 值 度量 命名 实体 识别 方法 的 整体 性 能 。 


9.3 共 指 消解 


对 于 关系 抽取 和 事件 抽取 等 任务 来 说 , 仅仅 完成 实体 识别 是 不 够 的 , 在 很 多 情形 下 ， 
一 篇 文档 中 一 个 指称 或 提 及 1 (mention) 可 能 有 多 个 实体 或 名 称 短语 与 之 对 应 ， 明 确 某 
个 指称 具体 所 指 的 过 程 称 为 共 指 消解 (coreference resolution) 。 

指称 主要 包括 3 类 : 普通 名 词 短语 、 专 有 名 词 和 代词 。 在 下 面 的 例 1 中 , 方 括号 ([]) 
标 出 了 句子 中 所 有 的 指称 。 

例 1: 

据 [路 透 社 ][ 记 者 ] 报道 ，[ 尼 泊 尔 总 理 ][ 卡 。 普 。 夏 尔 马 。 奥 利 ] 去 年 大 选 时 承诺 ， 若 
当选 ，[ 他 ] 将 把 水 电站 项 目 再 度 交 由 [葛洲坝 集团 ] 负责 建造 。 

其 中 “路 透 社 ”“ 尼 泊 尔 总 理 ”“ 卡 。 普 。 夏 尔 马 。 奥 利 ”“ 葛 洲 坝 集 团 ”都 是 命名 
实体 , 属于 专 有 和 名词 ,“ 记 者 ”是 普通 名 称 , “他 ”是 代词 。 共 指 消 解 的 目标 就 是 正确 区 分 
代词 “他 ”是 指 代 “ 记 者 ”还 是 尼泊尔 现任 总 理 “ 卡 。 普 。 夏 尔 马 。 奥 利 ”。 

假设 文本 中 所 有 指称 都 已 经 正确 识别 ?, 并 构成 候选 指称 集合 M= {mi, m2,…, mn}。 
共 指 消解 问题 可 视 为 集合 M 上 的 划分 问题 , 即将 N 个 元 素 (候选 指称 ) 划分 为 若干 个 
等 价 类 , 每 个 类 中 的 所 有 元 素 都 指向 同一 个 实体 。 在 例子 1 中 , 候选 指称 集合 为 M ={ 路 
透 社 , 记者 , 尼泊尔 总 理 , 卡 。 普 。 夏 尔 马 。 奥 利 , 他 , 葛洲坝 集团 }, 共 指 消解 的 结果 为 


? 即 对 应 现实 世界 中 同一 事物 的 不 同名 称 或 描述 。 
?通过 命名 实体 识别 、 句 法 分 析 等 方法 以 及 一 些 规则 可 确定 文本 中 的 候选 实体 或 名 词 短语 。 
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M' ={ 路 透 社 1, 记者 ?, 尼泊尔 总 理 3， 卡 。 普 。 夏 尔 马 。 奥 利 ?, 他 ?3， 葛 洲 坝 集团 全， 
即将 集合 M 划分 为 四 个 聚 类 , 词 的 右上 标 是 该 实体 或 指称 所 属 聚 类 的 编号 。 同 一 个 划 
分 类 里 的 实体 具有 相同 的 所 指 , 因此 ,“ 他 ”可 以 被 认定 为 “ 卡 。 普 。 夏 尔 马 。 奥 利 ”。 

通过 穷 举 的 方式 搜索 最 佳 划分 是 一 个 NP 难 问题 , 目前 所 有 共 指 消解 方法 都 是 一 种 
近似 方法 。 这 些 方法 大 致 可 以 分 为 基于 规则 的 方法 和 数据 驱动 的 方法 。 


9.3.1 ”基于 规则 的 共 指 消解 方法 

基于 规则 的 共 指 消解 方法 主要 思路 是 借助 语言 学 知识 (语法 、 语 篇 理论 等 ) 设计 
规则 和 约束 ,对 所 有 指称 歧义 进行 确定 性 消解 。 以 下 首先 介绍 早期 经 典 的 Hobbs 算法 
[Hobbs, 1978], 然后 阐述 简单 有 效 的 多 遍 过 滤 算 法 。 

1. Hobbs 算法 (Hobbs algorithm) 


Hobbs 算法 的 描述 如 下 : 


输入 : 文本 中 每 个 句子 的 句法 结构 树 
输出 : 指称 (实际 关注 的 是 代词 ) 具体 指 代 的 实体 或 名 词 短语 
算法 描述 : 

CL) 在 包含 待 消解 代词 的 句子 分 析 树 S 中 ,从 直接 支配 待 消解 代词 的 NP 节点 开始 ; 

(2) 自 底 往 上 沿 着 树 结构 查找 , 直至 遇 到 NP 节点 或 S 节点 , 记 该 节点 为 X, 对 应 的 路 径 为 p; 

(3) 按照 从 左 到 右 广 度 优先 的 方式 遍历 X 节点 下 面 且 在 路 径 p 左边 的 所 有 子 树 , 如 果 遇 到 NP 
WARY, FAX MY 之 间 有 NP 节点 或 S 节点 , WA Y 为 先行 语 , 否则 进入 第 (4) H: 

(4) 如 果 X 是 句子 的 根 节点 S, 依次 从 右 往 左 搜索 前 面 句 子 的 句法 分 析 树 , 对 于 每 棵 句法 分 析 
树 同样 采用 从 左 到 右 广度 优先 的 方式 搜索 , 遇 到 的 第 一 个 NP 节点 作为 先行 语 , 如 果 X 不 是 句子 的 
根 节点 S, 则 进入 第 (5) 步 ; 

(5) 从 X 节点 沿 着 句法 树 往 上 搜索 第 一 个 NP 节点 或 S 节点 , 记 为 最 新 的 X 节点 , 并 更 新 对 应 
的 路 径 p; 

(6) WRX 是 NP 节点 , 并 且 路 径 p 没有 经 过 X 直接 支配 的 名 词 节点 N, 则 X 为 先行 语 ; 

(7) 遍历 X 节点 下 面 且 在 路 径 p 左 侧 的 所 有 子 树 , 同样 是 从 左 往 右 , 广度 优先 ， 遇 到 任意 NP 
节点 则 视 为 先行 语 ; 

(8) WRX 是 S 节点 , 在 p 的 右 侧 从 左 到 右 广度 优先 的 方式 遍历 所 有 子 树 , 但 不 在 任何 NP 节 
点 或 S 节点 下 面 遍历 , 遇 到 的 任意 NP 节点 均 被 视 为 先行 语 ; 

(9) 继续 步骤 (4)。 


算法 9.2 ”基于 Hobbs 算法 的 共 指 消解 方法 


以 下 以 句子 “ 特 朗 普 经 常 口 无 遮 拦 ”和 “一 些 媒体 不 喜欢 他 ”为 例 , 说 明 Hobbs 算法 
的 执行 过 程 。 图 9.9 中 的 Ca) 和 Ch) 分 别 是 这 两 个 句子 的 短语 结构 树 。 

Hobbs 算法 第 一 步 从 图 9.9 Cb) 中 的 节点 NP? 开始 往 上 查找 , 找到 S?, 记 为 X 节 
点 , 路径 p 用 虚线 表示 。 第 3 步 找 到 NP? 节点 , 但 NP? 5 S? 之 间 没 有 NP 节点 ,由 于 
X 是 句子 的 根 节点 , 所 以 进入 第 4 步 , 继续 在 前 面 句子 的 句法 树 中 搜索 S! 节点 下 面 的 节 
点 , 发现 NP1 节点 满足 要 求 , 则 确定 NP1 节点 表示 的 “ 特 朗 普 ” 是 指称 “他 ”的 先行 语 。 
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图 9.9 共 指 消解 示例 


Hobbs 算法 简单 易 实现 , 但 由 于 规则 过 于 泛 化 ， 导 臻 最 终 效果 并 不 是 非常 理想 。 近 
年 来 , 斯 坦 福 大 学 Raghunathan 等 人 (2010) 提出 了 一 种 基于 多 遍 扫描 过 滤 的 共 指 消解 
算法 , 其 基本 思路 是 将 共 指 消解 规则 按照 准确 程度 由 高 到 低 设 计 成 不 同 的 筛子 (Sieve)， 
筛子 用 来 一 层 一 层 地 过 滤 共 指 消解 的 结果 。 该 算法 曾 在 CoNLL 2011 英文 共 指 消解 评测 
任务 中 取得 了 最 佳 成 绩 [Lee et al., 2011], 随后 被 用 于 中 文 的 共 指 消解 。 


2. 多 遍 过 滤 算 法 


多 遍 过 滤 算 法 首先 用 确定 性 强 的 规则 对 候选 指称 集合 M = {m mo, ,mv} 进行 
划分 和 聚 类 , 得 到 新 的 集合 Ml = (mbt mP, my}, 其 中 上 标 ki 相同 的 指称 具有 
KEKR, 将 其 聚合 为 一 类 , 也 称 一 个 共 指 链 ， 当 作 一 个 元 素 , 那么 |M'| < |M] E M' 
的 基础 上 , 逐渐 利用 准确 率 稍 低 的 规则 对 M' 进行 划分 ， 即 不 断 放 松 约束 , 归并 有 具有 共 
指 关 系 的 指称 集合 。 集合 M 中 的 元 素 个 数 ( 聚 类 数 ) 随 着 各 层 筛 子 的 应 用 不 断 减 少 , 总 
体 上 正确 率 不 断 下 降 , 召回 率 不 断 上 升 。 这 种 方法 保证 了 确定 性 强 的 规则 在 消解 过 程 中 
的 影响 更 大 ,而 且 不 同 的 筛子 可 以 共享 聚 类 结果 中 不 同 指称 的 属性 信息 。 

多 凯 过 滤 算 法 对 候选 指称 集合 共 进 行 7 凯 扫描 ， 每 一 遍 利用 不 同 的 共 指 消解 规则 。 
表 9.2 给 出 了 算法 每 一 步调 用 的 消 歧 规则 。 


表 9.2 ”多 这 过 滤 算 法 每 一 步调 用 的 规则 


层 (Pass) 类 型 (Type) 规 则 
1 N 精确 匹配 
2 N,P 同位 语 | 谓语 名 词 | 角色 同位 语 | 关系 代词 | 缩写 | 区 域 居民 称谓 
3 N RR Lyte] DAC te A AE TARE EL 
4 N RAP ie] LAC FAG AS 
5 N RAY ia] DACA HALAS 
6 N RAN RA Piel LAC a ES EAS 
if P 代词 匹配 


第 1 遍 扫 描 采用 精确 匹配 规则 : 如 果 两 个 指称 在 字符 层面 完全 匹配 , 那么 这 两 个 指 
称 指向 同一 个 实体 , 将 其 聚 为 一 类 。 
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第 2 遍 扫描 采用 精确 结构 规则 : 如 果 两 个 指称 满足 下 面条 件 之 一 ， 则 认为 这 两 个 指 
称 指向 同一 个 实体 。 

条 件 1): 同位 语 , 即 两 个 指称 是 同位 语 关 系 , 例如 “| 美国 总 统 ][ 特 朗 普 ] 说 …”; 

条 件 2): 谓语 名 词 , 即 两 个 指称 是 并 列 的 主 宾语 结构 , 例如 “[ 北 京 ] 是 [中 国 首都 ]”; 

条 件 3): 角色 同位 语 , 即 指称 的 先行 语 是 该 指称 的 角色 修饰 成 分 , 例如 “ [中 国 科学 
院 院士 ][ 张 杰 ]…”; 

条 件 4): 关系 代词 , 即 指称 是 先行 语 的 关系 代词 , 例如“[ 北 京 ][ 这 个 地 方 ]… ”; 

条 件 5): 缩写 , 即 一 个 指称 是 另 一 个 指称 的 缩写 形式 , 例如 “[ 中 国 科学 院 大 学 ]… [ 国 
科大 ]:…”; 

条 件 6) 区 域 居 民 称 谓 ， 即 两 个 指称 表示 相同 的 称谓 , 例如 英语 中 的 “[Israel]:… 
[Israeli]” 。 

经 过 两 遍 扫 描 , 候选 指称 集合 M = {m,m ,mn} 被 聚 类 后 形成 一 个 新 的 集合 
M! = {m}, m}, mAn p 后 续 的 扫描 都 基于 这 个 新 的 集合 。 

第 3 遍 扫 描 采 用 严格 的 中 心 词 匹配 规则 : 指称 或 指称 聚 类 满足 下 面 所 有 条 件 才 能 
将 其 归 为 某 个 聚 类 : Q@ 聚 类 中 心 词 匹配 ， 即 指称 的 中 心 词 必须 与 先行 语 聚 类 中 的 某 个 指 
称 的 中 心 词 匹 配 ; Qin AS. 即 指称 集合 中 的 非 停 用 词 必须 都 出 现在 先行 语 聚 类 中 ， 
图 修饰 语 兼容 ,， 即 指称 的 修饰 成 分 都 应 该 出 现在 先行 语 聚 类 中 ; @ 非 包含 ， 即 两 个 指称 
在 树 结构 中 不 是 包含 关系 , 例如 履 盖 一 个 指称 的 NP 节点 不 能 是 另 一 个 指称 NP 节点 的 
子 节点 。 

第 4 遍 到 第 6 这 扫描 采用 更 加 宽松 的 匹配 规则 。 第 7 过 扫描 采用 代词 匹配 规则 , 即 
在 消解 代词 时 要 求 先 行 语 和 该 代词 在 单 复数 、 性 别 、 人 称 、 动物 性 ! 和 实体 类 别 上 保持 
is 

虽然 基于 多 遍 扫 描 过 滤 的 方法 只 是 利用 简单 的 规则 匹配 , 但 被 证 明 在 英语 和 汉语 等 
多 种 语言 的 共 指 消解 任务 中 表现 都 非常 出 色 ,， 甚至 优 于 很 多 数据 驱动 的 方法 。 


9.3.2 ”数据 驱动 的 共 指 消解 方法 


数据 驱动 的 共 指 消解 方法 假设 存在 一 批 正 确 标注 了 共 指 关系 的 语料库 , 希望 从 标注 
数据 中 学 习 共 指 消解 模 型 ， 自 动 对 测试 数据 中 的 候选 指称 集合 进行 划分 。 数 据 驱 动 的 方 
法 可 以 分 为 指称 对 模型 、 实 体 -指称 模型 、 指 称 排序 模型 和 实体 排序 模型 。 指 称 对 模型 用 
于 判断 任意 两 个 指称 是 否 具有 共 指 关系 。 实体- 指称 模型 判断 一 个 指称 是 否 属于 已 形成 
的 某 个 共 指 聚 类 ,， 即 判断 是 否 与 某 聚 类 中 的 所 有 指称 都 具有 共 指 关系 。 指 称 排序 和 实体 
排序 模型 则 将 分 类 问题 转换 为 排序 问题 , 在 训练 实例 构建 时 将 具有 共 指 关系 的 指称 赋予 
更 高 的 排序 值 。 

相对 而 言 , 指称 对 模型 使 用 最 为 广泛 。 以 下 将 以 指称 对 模型 为 例 从 特征 构建 、 训 练 
和 测试 等 过 程 详细 介绍 数据 驱动 的 共 指 消解 方法 。 无 论 是 训练 集 和 测试 集 , 指称 检测 都 

1 动物 性 表示 是 否 为 生命 体 , 例如 人 名 是 生命 体 , 而 地 名 不 是 。 
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是 第 一 步 。 前 面 已 经 介绍 过 , 可 以 通过 命名 实体 识别 、 利 用 句法 结构 树 进行 代词 和 名 记 
短语 提取 等 手段 获得 候选 指称 集合 。 假 设 候选 指称 集合 M = {m,m my} 为 输 
入 。 指 称 对 模型 最 核心 的 三 个 模块 分 别 是 : 正 负 指称 对 构建 、 特 征 提取 和 指称 对 分 类 训 
练 模型 。 

正 负 指称 对 构建 : 学 习 一 个 二 分 类 模型 需要 考虑 如 何在 训练 语 料 上 构建 正 例 和 负 
例 。 一 个 朴素 的 想法 是 将 训练 集 M 中 任意 西 个 具有 共 指 关系 的 指称 作为 正 例 ,任意 丁 
个 不 共 指 的 指称 作为 负 例 。 显然 , 这 样 的 构建 方式 一 方面 会 造成 训练 实例 过 于 庞大 , 另 
一 方面 也 会 造成 严重 的 数据 不 平衡 问题 ( 负 例 样本 远 多 于 正 例 样 本 )。Soon 等 人 (2001) 
是 出 了 一 种 比较 合理 的 构建 方法 : 对 于 M 中 的 任意 指称 my, 如 果 与 之 最 近 的 具有 共 指 
关系 的 指称 是 mi (i < j), WA (mi, my) 构成 正 例 ,而 任意 的 me (i < k < j) 与 mj 形 
成 负 例 (mg,my)。 

特征 提取 : 对 于 一 个 指称 对 (mi, m) 指称 自身 及 其 上 下 文 特征 共同 决定 (mi, m) 
是 否 具有 共 指 关系 。 如果 用 f (m,m) 表示 特征 函数 ,常用 的 特征 包括 词法 、 句法, 距 
离 、 位 置 和 语义 特征 等 。 宋 洋 等 人 (2015) 总 结 了 一 批 具 体 的 特征 , 如 表 9.3 所 示 。 


表 9.3 ” 共 指 关系 消解 中 的 常用 特征 
词法 特征 

f(mi,m;) = {1, WR m; Alm; 字符 串 精确 匹配 ; 0, 否则 } 
f(mi,m;) = (1, WR m; 和 mj 为 代词 且 字符 串 精确 匹配 ; 0, 否则 } 
f(mi, mj) = {1, WK mi 和 mj 为 专 有 名 词 且 字符 串 精 确 匹 配 ; 0, 否则 } 
f(mi,m;) = {1, WR ms 和 mj 不 是 代词 且 字符 串 精 确 匹 配 ; 0, 否则 } 
(mi;mi) = (1, WR m; Alm; 中 心 词 精 确 匹 配 ; 0, 否则 } 
f(mi,m;) = {1, WR m: 和 mj; 存在 子 串 精确 匹配 ; 0, 否则 } 
f(mi, mj) = {mi 和 mj 中 心 词 对 组 合 


语法 特征 

f(mi,m;) = (1, WR m; 和 mj 单 复数 一 致 ; 0, 否则 } 

f(mi,m;) = (1, WR mi 和 mj; 性 别 一 致 ; 0, AM} 

f(mi,m;) = {1, 如 果 m; 和 mj 单 复数 和 性 别 均一 致 ; 0, 否则 } 
f(mi,m;) = {1, WR m: 和 mj 性 别 单 复 数 均一 致 昌之 间 没有 其 他 指称 ; 0, 否则 } 
f(mi,m;) = {1, 如 果 m; 和 mj 动物 性 一 致 ; 0, 否则 } 

f(mi, mj) = {1, WR mi 和 mj ZERE; 0, 否则 } 

f(mi,m;) = {1, 如 果 m; 和 mj; 由 相同 的 名 词 短语 管辖 ; 0, 否则 } 
f(mi,m;) = {1, 如 果 m; 和 mj 均 在 引用 句子 中 ; 0, 否则 } 
f(mi,m;) = (1, 如 果 mi 或 mj 具有 自 反 性 质 ; 0, 否则 } 

f(mi,m;) = (1, WE m: 或 m; 是 所 有 格 ; 0, 否则 } 

f(mi,m;) = (1, WE m; hm; 是 包含 限定 词 的 名 词 短语 ; 0, 否则 } 
f(mi,m;) = (1, WẸ m; 或 mj; 是 指示 性 的 名 词 短语 ; 0, 否则 } 
f(mi,m;) = {mi 或 m; 的 指称 类 型 字符 串 } 
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续 表 


f(mi,m;) = (1, WR m; Mm; 是 别名 关系 ; 0, 否则 } 

f(mi,m;) = {1, WR m: 和 mj 源 自 相同 的 陈述 者 ; 0, 否则 } 

f(mi,m;) = {1, WR m; Al m; 具有 相同 的 语义 角色 ; 0, 否则 } 

f(mi,m;) = {1, WR mi 和 mj 的 实体 类 型 一 致 ; 0, 否则 } 

f(mi,m;) = {1, WR m; 和 mj; 受 相同 动词 支配 ; 0, AM} 

f(mi,m;) = {1, WR mi 和 mj; 是 同位 语 关系 ; 0, 否则 } 

f(mi,m;) = {1, WR m; 和 mj; 由 系 动词 连接 ; 0, AM} 

f(mi, mj) = {mi 或 mj 的 实体 类 型 字符 串 } 

f(mi,m;) = {mi 与 mj 在 WordNet 中 的 距离 值 } 
距离 和 位 置 特征 

f(mi,m;) = {mi 与 mj 之 间 的 句子 数目 } 

f(mi,m;) = {mi 与 mj 之 间 的 指称 数目 } 

f(mi, mj) = {mi R m; 是 否 为 句子 的 首 个 指称 } 


指称 对 分 类 模型 : 所 有 的 二 分 类 模型 都 可 以 应 用 于 共 指 消解 任务 ， 如 朴素 贝 叶 斯 模 
型 、 最 大 焙 模 型 、 支 持 向 量 机 和 神经 网 络 模型 等 。 以 最 大 箭 模型 为 例 ,分 类 模型 直接 对 指 
称 对 (mi, my) 是 否 共 指 的 条 件 概率 P (Y mi, mj) 进行 建 模 : 


k=1 
K 
Yep = Ante mam} 
Y kel 


其 中 , Y € {0,1}, fe (Y,mi,m;) 是 取 确 定 Y 值 时 的 特征 ， 和 4 是 对 应 的 特征 权重 。 最 大 
MARN — HF GG ARATE (generalized iterative scaling, GIS) 优化 权重 参数 
Neo FRAMERATE LA, WKRFR C++ 开源 工具 包 1。 

基于 指称 对 模型 的 共 指 消解 框架 如 图 9.10 所 示 。 

对 于 测试 文本 , 在 得 到 指称 对 分 类 结果 之 后 , 还 需 进行 必要 的 操作 以 获得 共 指 聚 类 
结果 。 常见 的 聚 类 方法 有 三 种 : 最 近 最 先 (closest-first)、 最 优 最 先 (best-first〉 和 传递 性 
约束 。 最 近 最 先 方法 为 当前 指称 选择 最 近 的 满足 共 指 关系 的 那个 指称 作为 先行 语 。 最 优 
最 先 方法 则 为 当前 指称 选择 与 之 具有 共 指 关系 概率 最 高 的 那个 指称 作为 先行 语 。 传 递 性 
约束 方法 是 指 三 个 指称 中 如 果 有 两 对 满足 共 指 , 那么 第 三 对 也 满足 共 指 。 图 划分 和 谱 聚 
类 等 方法 是 利用 传递 性 约束 进行 聚 类 的 常用 方法 。 

近年 来 ,也 有 不 少 研究 者 开始 探索 利用 深度 学 习 的 方法 研究 共 指 消解 问题 ,如 
[Clark and Manning, 2016a, 2016b] 等 。 其 主要 思想 是 除了 上 述 提 到 的 常用 离散 特征 以 
外 ,还 将 指称 自身 、 指 称 内 部 词汇 、 指 称 对 、 指 称 聚 类 对 等 利用 分 布 式 向 量 表示 ， 然 后 采 


1http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html 


K 
exp = Ar fr (Y, Mi, moh 
P (Y |m;, m;) = (9.22) 
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图 9.10 ”基于 指称 对 模型 的 共 指 消解 框架 


用 多 层 神经 网 络 模型 对 (mi, mj) 进行 打分 。 这 类 模型 取得 了 很 好 的 效果 ， 显 示 了 巨大 的 
发 展 潜力 。 


9.3.3 ” 共 指 消解 评价 


由 于 共 指 消解 任务 包括 指称 检测 和 共 指 消解 两 个 子 任务 , 因此 评价 共 指 消解 系统 的 
性 能 也 需要 从 这 两 方面 考虑 。 假设 测试 文本 为 ,了 中 的 指称 和 共 指 关系 已 被 人 工 正确 
地 标注 ， 从 中 提取 出 的 指称 和 实体 集合 为 : M* = {mi,mo myi} CN* 表示 
正确 指称 的 数目 ,对 表示 m} MANPRRSY. 共 指 消解 系统 在 了 上 自动 生成 的 指称 
和 共 指 关系 聚 类 集合 为 M = {m}, m, mi}. M* 与 M 之 间 的 关系 如 图 9.11 所 
示 。 其 中 , 最 左 侧 的 实 线 圆圈 从 上 至 下 分 别 是 M* 中 的 标准 划分 Gi 和 Go, 虚线 圆圈 从 
上 至 下 分 别 是 M 中 的 系统 划分 Sy, S2 和 53。 
评价 目标 是 度量 M* 与 M 之 间 的 相似 性 。 通 常用 正确 率 (P)、 召 回 率 CRD Al Fy 
值 作为 度量 指标 。 Fy 的 计算 公式 为 : 
_ 2PR 
P+R 


HFP A RAE F 值 是 确定 的 , 因此 不 同 评价 方法 的 区 别 在 于 如 何 计 算 正 确 率 P 
和 召回 率 R。 常 用 评价 方法 包括 MUC 方法 、B? 方法 和 CEAF 方法 [Pradhan et al., 
2014]， 以 下 分 别 进行 介绍 。 

MUC 方法 是 MUC 会 议 组 织 评测 时 采用 的 方法 , 通过 如 下 公式 计算 和 R( 用 
图 9.11 中 给 出 的 数据 代入 公式 ): 


j (9.23) 
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实 线 : 标准 标注 与 划分 。 实 线 : 标准 标注 与 划分 KR: 标准 在 系统 结果 上 的 划分 
虚线 : 系统 标注 与 划分 。 虚线 : 系统 在 标注 结果 上 的 划分 “虚线: 系统 标注 与 划分 


p= 100% 


图 9.11 标准 共 指 关系 和 系统 预测 的 共 指 关系 示意 图 


Ng 
Gil 一 Gi 
> (Gl -lp(G)) eee 


(3-—1)+ (4-1) 


z 100% = 40.0% (9.24) 
> (Gi -1) 
i=1 


Ns 
>. (Sil lp (sD) 


R i 


= 100% (2 —1) + (2—2) + (4-3) 


=r == 1) 100% 40.0% (9.25) 


N, 
>》 (Sil = 1) 
i=1 


其 中 Gi 表示 第 i 个 正确 的 指称 聚 类 , p (Gi) 表示 系统 在 正确 结果 Gi 上 的 划分 ,可 
见 图 9.11 中 间 的 示意 图 , Ga 包含 3 个 指称 a,b 和 c, 系统 将 a,b,c 划分 为 两 个 聚 类 (a,b) 
Ac, 因此 |Gi| = 3, |p(G1)| = 2。5; 是 系统 给 出 的 第 i 个 指称 聚 类 , p (5;) 表示 正确 结 
果 在 系统 结果 G 的 划分 , 可 见 图 9.11 最 右 侧 的 示意 图 , Ss 包含 4 个 指称 f,g,h Ali, IE 
确 结果 将 f,g,h,i 划分 为 3 个 聚 类 (g, 了 ),h Ali, 因此 |5s| = 4 |p(S3)| = 3。N 和 N。 
分 别 表示 正确 和 系统 预测 的 指称 聚 类 数目 (如 图 9.11 tas, Ng = 2, Ns = 3)。 得 到 正确 


率 P RA 
MUC 


回 率 R 后 ,可 以 计算 MUC fy F, = 0.4。 
方法 更 偏爱 产生 较 少 实体 指称 的 系统 ， 从 而 在 系统 区 分 度 方面 存在 不 足 。 为 


了 解决 这 个 问题 ，B? 方法 [Bagga and Baldwin, 1998] 对 每 个 指称 计算 其 正确 率 和 召回 
率 , 所 有 指称 的 正确 率 和 召回 率 的 加 权 平 均 作 为 最 终 的 结果 , 其 计算 公式 如 下 : 


N, 
> Zens] 
这 1 j=1 IS: 


(9.26) 
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(9.27) 


Ba 方法 仍然 面临 一 个 问题 : 同一 个 实体 指称 可 能 被 多 次 计算 。 例如, 假设 系统 
错误 地 将 指称 a, b, c, d, e, f 和 9 聚 为 一 类 (a,b,c,d,e,f,g)， 那么 利用 上 述 公 式 就 
会 得 到 100% 的 召回 率 ; 假设 系统 错误 地 将 指称 a b, c d, e f 和 9 分 别 聚 为 7 类 
(a), (b); (c); (d); (e), (f) 和 (g), 便 会 发 现 上 述 公 式 计算 的 正确 率 为 100%。 显然 这 些 结 
果 并 不 合理 , 为 了 克服 这 个 问题 , CEAF 方法 [Luo, 2005] 首先 计算 标准 答案 与 系统 输出 
结果 之 间 的 指称 聚 类 的 最 佳 对 齐 。 为 了 更 好 地 计算 两 个 指称 聚 类 之 间 的 相似 度 ,，CEAF 
方法 提出 了 4 种 策略 : 


_f 1, MRE, = S 
Qı Gs)-{ o AN (9.28) 
_f 1, WEGNS 42 
$2 (Gi, Sj) = { 0, 否则 (9.29) 
$s (Gi, Sj) = |Gi N S;| (9.30) 
2lGin5il 
$4 (Gi, Sj) = [Gi + 1551 (9.31) 


在 图 9.11 中 ， 以 标准 答案 为 基准 ， 首 先 计算 与 G1 对 齐 的 系统 输出 。 如 果 采 用 
pa (Gi, Sj) 分 别 计算 Sy. S2 和 S3 与 Gi 的 相似 度 ， 显 然 与 G1 的 最 佳 对 齐 是 Sio KIA 
地 ，5s 与 Go WF, So 未 对 齐 。 正确 率 和 召回 率 可 以 通过 如 下 公式 计算 : 


P= 9.32 
15:1 + [Sal + [Sal (e) 
[G1 N Sı| + |G2N S3| 
Ra ae e $ 
|Gy| + |Go| (9.33) 


当然 ,上述 公 式 中 的 分 子 |Gin 5j| 可 以 采用 ġa (Gi, Sj) 蔡 换 ， 从 而 图 9.11 中 例子 
可 以 利用 CEAFw, 计算 其 正确 率 和 召回 率 : 


ġa (G1, S1) + G4 (G2, S3) 


E Bs (9.34) 
pa $4 (GS) i Qa (G2, S3) (9.35) 


g 


根据 最 近 的 研究 工作 [Clark and Manning, 2016a], 在 CoNLL 2012 提供 的 共 指 消 
解 标 注 数 据 集 上 , 最 好 的 共 指 消解 方法 在 英文 任务 中 MUC、B? 和 CEAFw 三 种 计算 方 
法 获得 的 平均 Fi 值 为 66% 左 右 , 在 中 文 任务 中 的 平均 F 值 为 65% 左 右 。 可 见 ， 共 指 消 
解 技术 的 性 能 仍 有 很 大 的 提升 空间 。 
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实体 歧义 指 的 是 一 个 实体 指称 可 对 应 到 多 个 真实 世界 的 实体 , 多 发 生 在 不 同 的 文档 
中 。 请 看 下 面 例 2 中 关于 人 名 指称 “张杰 ”的 两 个 句子 : 

例 2: 

@ 张 杰 多 次 在 春节 联欢 晚会 上 演出 。 

@@ 原 上 海 交通 大 学 校长 张杰 院士 出 任 中 国 科学 院 副 院 长 。 

ETOF, “GRAS” 指 的 是 歌手 张杰 ， 而 在 句子 @ 中 “张杰 ” 指 的 是 中 国 科学 院 院 
士 张 杰 。 确定 实体 指称 与 真实 世界 中 实体 对 应 关系 的 过 程 称 为 实体 消 歧 , 或 称 实体 链 
接 (entity linking) 。 

以 下 以 文献 中 常用 的 人 名 “Michael Jordan” 为 例 , 介绍 实体 消 歧 方法 。 

形式 化 地 , 实体 消 歧 任务 可 以 表示 成 一 个 四 元 组 : ED = {M, E,K, fh 其 中 , E= 
{e1, e2，,… ,er} 表示 真实 世界 中 所 有 实体 概念 的 集合 。 在 文档 、 网 页 、 论文 等 数据 集合 
中 , 所 有 的 实体 都 以 指称 的 形式 存在 , 这 些 指称 包括 命名 实体 、 代 词 和 名 词 短语 等 组 成 。 
根据 前 面 的 介绍 , 与 命名 实体 具有 共 指 关系 的 代词 和 名 词 短语 的 歧义 可 通过 共 指 消解 
技术 得 到 消解 ,因此 , 本 节 以 命名 实体 为 考察 对 象 。 但 是 , 即使 仅仅 以 命名 实体 为 考察 
HZ, 也 会 面临 同一 个 命名 实体 以 全 称 、 简 称 和 别称 等 不 同形 式 出 现 的 情形 ,所 以 实体 
消 歧 任务 将 面临 更 多 复杂 的 问题 。 例 如 “United States of America ”在 很 多 情况 下 以 缩 
“USA” 的 形式 出 现 , 而 “人 大 ”究竟 指 中 国人 民 大 学 还 是 指 中 国人 民 代表 大 会 ， 需 要 
根据 具体 的 上 下 文 确定 。 

M = {m,m my} 是 文档 集合 中 需要 进行 消 歧 的 指称 。 

K 表示 可 用 于 实体 消 歧 的 知识 源 , 或 称 背 景 知识 , 例如 , 与 人 名 相关 的 社会 网 络 、 
维基 百科 和 WordNet 等 知识 库 。 

J:Mx 开 一 已 是 实体 消 歧 函数 ， 表 示 将 具体 指称 映射 到 真实 世界 的 实体 概 
念 ， 如 将 句子 “Michael Jordan is a leading researcher in machine learning and artificial 
intelligence” 中 的 指称 “Michael Jordan ”映射 到 实体 概念 “Michael Jordan (Professor) ” , 
将 “Michael Jordan wins NBA MVP” 中 的 “Michael Jordan” 了 映射 到 实体 概念 “Michael 
Jordan (Basketball Player)”。 

不 同 的 实体 消 歧 方法 之 间 的 主要 区 别 在 于 对 实体 概念 集合 的 假设 和 对 知识 源 K 
的 利用 程度 两 个 方面 。 根 据 真实 世界 的 实体 概念 集合 媚 是 否 已 知 , 实体 消 歧 方 法 可 划分 
为 基于 聚 类 的 方法 和 基于 链接 的 方法 两 种 。 


9.4.1 ”基于 聚 类 的 实体 消 歧 方法 


在 实体 概念 集合 E 未 知 的 情况 下 , 实体 消 歧 函数 了 转变 为 对 文档 集合 中 所 有 指称 
M = {mm2,… ,mn} 进行 聚 类 的 问题 , 即 判断 任意 两 个 同名 指称 是 否 指向 相同 的 实 
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目前 , 实体 消 歧 多 以 数据 驱动 的 方法 为 主 , 可 利用 的 知识 主要 包括 上 下 文 信息 C 和 
背景 知识 玉 。 上 下 文 信息 C 指 的 是 指称 所 在 的 上 下 文 语 境 , 如 以 指称 为 中 心 的 某 个 窗口 
中 的 所 有 词语 。 背景 知识 天 表示 社会 网 络 、 维 基 百 科 、 实 体 概念 的 分 类 体系 和 关联 体系 
等 知识 库 。 根据 所 使 用 背景 知识 的 不 同 ,基于 聚 类 的 实体 消 歧 方法 又 可 大 致 分 为 基于 文 
本 向 量 空间 的 聚 类 方法 、 基 于 社会 网 络 的 聚 类 方法 和 基于 维基 百科 的 聚 类 方法 。 


1. 基于 文本 向 量 空间 的 聚 类 方法 


基于 文本 向 量 空间 的 聚 类 方法 不 使 用 任何 背景 知识 ， 只 使 用 指称 所 在 的 上 下 文 信 
息 , 代表 性 的 工作 有 [Bagga and Baldwin, 1998; Mann and Yarowsky, 2003; Fleischman 
and Hovy, 2004; Pedersen et al., 2005] 等 。 该 方法 基于 一 个 分 布 式 假设 : 指向 相同 实 
体 概念 的 指称 具有 相似 的 上 下 文 分 布 , 而 指向 不 同 实 体 概念 的 指称 拥有 迎 然 不 同 的 上 
PÜ: 

基于 文本 向 量 空间 的 聚 类 方法 一 般 分 为 三 个 步骤 : 四 利用 向 量 空间 模型 获得 
M = {mim2,… ,mn} 中 每 个 实体 指称 的 实数 向 量 表示 ; 加 计算 实体 指称 之 间 的 距离 
@ 基 于 指称 之 间 的 距离 进行 聚 类 , 确定 哪些 指称 指向 相同 的 实体 概念 。 

下 面 以 基于 词 袋 模型 的 上 下 文 表示 为 例 , 假设 mi 的 上 下 文 是 ci = {ci Ci2, +++, Cim}> 
其 中 ci 是 以 mi 为 中 心 词 的 上 下 文 窗口 中 的 词语 , 或 者 是 rw 所 在 文档 中 的 词 
语 (一 般 不 包含 停 用 词 )。 例 如 ,在 前 面 给 出 的 关于 “Michael Jordan” 的 两 个 例句 
中 ， 可 用 {researcher，machine learning, artificial intelligence} 词 汇 表示 第 一 个 句子 中 
的 “Michael Jordan”, 用 {NBA, MVP} 表 示 第 二 个 句子 中 的 “Michael Jordan”. 然后 ， 
可 以 采用 TF-IDF 计算 mi; 的 上 下 文 向 量 Xi = {zi 2i2,… ,Ziv} V 表示 词汇 表 规 
模 ，zik 表示 第 个 词 的 权重 )， 即 利用 文档 集合 中 所 有 词汇 构成 的 词 表 作为 特征 空间 ， 
计算 词 表 中 每 个 词 在 mi 上 下 文中 的 权重 : 

yy = thidf (w,) (9.36) 


除了 TF-IDF 方法 以 外 ,也 可 以 采用 文本 表示 章节 介绍 的 多 种 分 布 式 文本 表示 方 
法 。 例如 , 采用 词 向 量 的 加 权 平 均 法 , 或 者 采用 句子 篇 章 的 分 布 式 表示 方法 获得 mi 的 上 
下 文 表示 Xio 
FE m 上 下 文 向 量 表示 的 基础 上 , 向 量 之 间 的 余弦 距离 用 于 表示 两 个 实体 指称 之 间 
的 距离 : 
sim (Xi, X;) = cosine (X;, X;) (9.37) 


层次 合并 聚 类 (hierarchical agglomerative clustering, HAC) 是 面向 余弦 距离 的 常 
用 方法 , 在 实体 消 歧 任务 评测 中 被 多 次 采用 。HAC 采用 自 底 向 上 的 合并 聚 类 策略 ,首先 
将 每 个 实体 指称 作为 一 类 ， 然 后 迭代 地 合并 相似 度 最 高 的 两 个 聚 类 , 直至 最 大 相似 度 小 
于 某 个 阔 值 或 者 仅 剩 下 一 个 聚 类 。 聚 类 之 间 的 距离 可 通过 如 下 公式 计算 : 


sim (2, y) 


reui,yeu; 


(9.38) 
llul] x lusll 


Csim (uj, uj) = 
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最 终 , 在 同一 个 聚 类 中 的 实体 指称 指向 同一 个 实体 概念 。 


2. 基于 社会 网 络 的 聚 类 方法 


基于 社会 网 络 的 聚 类 方法 主要 用 于 人 名 消 歧 。 该 方法 假设 某 个 指称 对 应 的 实体 
概念 由 与 其 关联 的 实体 网 络 所 决定 !。 这 种 方法 以 实体 概念 之 间 的 社会 网 络 作 为 背 
景 知识 [Malin et al., 2005; Minkov et al., 2006; Bekkerman and McCallum, 2005]。 
例如 , “Michael Jordan (Basketball Player)” 的 社会 网 络 包括 {Scottie Pippen, Dennis 
Rodman, Magic Johnson, Shaquille O’Neal, Kobe Bryant, ---}; mi “Michael Jordan 
(Professor)” 的 社会 网 络 包括 {Yoshua Bengio, David Blei, Andrew Ng, Geoffrey Hin- 
ton, Yann LeCun, .…}。 下面 以 面向 网 页 中 的 人 名 消 歧 任务 为 例 介 绍 基于 社会 网 络 的 聚 
类 方法 。 

社会 网 络 方法 的 核心 思想 是 基于 以 下 观察 现象 : 相 熟 的 人 或 者 具有 相似 背景 的 人 所 
在 的 网 页 很 可 能 是 相互 链接 的 ， 而 同名 却 不 同 背景 的 人 很 少 会 有 链接 关系 。 该 人 名 消 层 
方法 的 基本 思路 是 : 对 于 人 名 概念 h, 其 指称 或 名 称 为 如 ,背景 知识 K 是 与 h 有 社会 关 
系 的 人 名 集合 TH = {th ,… ,thw} Tu BE th), 利用 th, stha 作为 查询 项 提交 给 
搜索 引擎 ,每 个 查询 项 返回 最 前 面 的 工 个 网 页 , 得 到 包含 hw x 工 个 网 页 的 集合 D。 由 
于 检索 th 返回 的 网 页 可 能 指向 人 名 概念 h, 也 可 能 指向 同名 概念 ,因此 人 名 消 歧 的 目 
标 是 学 习 函 数 f, 在 背景 知识 KK 的 帮助 下 , 判断 某 个 包含 人 名 指称 tn 的 网 页 de D 是 
和 否 指向 具体 的 人 名 概念 ho 

社会 网 络 聚 类 方法 旨 在 为 网 页 集合 D 构建 连接 图 Grs = (V, E), V 中 的 每 个 节点 
对 应 D 中 的 一 个 网 页 , WR di 和 dj 之 间 存 在 一 条 边 , 则 说 明 两 个 网 页 d; 和 dj 具有 链 
BEKR. ME GLs， 从 中 容易 找到 节点 最 多 的 一 个 连接 子 图 ?, 称 之 为 中 心 聚 类 Co。 其 余 
聚 类 (连接 子 图 ) 分 别 为 C1,… ,Cp B < K x L). MA, D 中 的 某 个 网 页 d 是 否 指向 
h 将 由 下 面 的 函数 f 决定 : 


1, if deci:llcs -col<6 i=0,---,B 
0， 其 他 


这 里 有 三 个 问题 需要 解决 : 如 何 判断 两 个 网 页 是 否 具有 链接 关系 ; 如 何 度 量 两 
个 聚 类 之 间 的 距离 ; 图 如 何 决定 距离 阔 值 5。Bekkerman and McCallum (2005) 对 这 三 
个 问题 采用 如 下 解决 方案 : 

对 于 问题 ,为 每 个 网 页 d 定义 一 个 超 链接 集合 LS (d)。 如 果 di 和 dj 满足 
LS (di) NLS (dj) # @， 则 表示 存在 链接 关系 ; 否则 , 不 存在 链接 关系 。LS (d) 由 三 部 分 
组 成 : 


f (d,h) = { (9.39) 


LS (d) = url (d) U (links (d) NTR (D)) (9.40) 


其 中 , url (d) 将 d 对 应 的 URL 进行 截取 , 保留 第 一 层 目录 , 例如 ,如果 a 的 网 址 是 
http:Wwww.ia.cas.cn/yjsjy/zs/sszs/, url (d) 返回 如 下 结果 : http://www.ia.cas.cn/yjsjy。 


1 这 一 思想 与 搜索 引擎 中 采用 的 PageRank 算法 非常 相似 , 即 一 个 网 页 的 重要 性 由 与 其 存在 链接 关系 的 网 页 所 决定 。 
?该 子 图 中 的 网 页 节点 至 少 通过 检索 两 个 人 名 获得 。 
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当然 , WR d 的 网 址 是 http://www.ia.cas.cn, url (d) 将 仍然 返回 http://www.ia.cas.cn。 
TR(D) = {url(d;)}\POP, 其 中 POP 表示 流行 网 址 集合 ， 如 www.google.com 等 ， 
即 TR(D) 是 {furl(di)} 返 回 的 所 有 结果 排除 流行 网 址 后 的 网 址 。links (d) 表示 网 页 d 中 的 
所 有 网 址 集合 。 

对 于 问题 @,， 两 个 聚 类 之 间 的 距离 采用 向 量 之 间 的 余弦 距离 度量 。 向 量 中 的 每 个 元 
素 采 用 特定 的 tfdf (w) 表示 : 
tf (w) 


tfidf = ————— 
(w) log google_df (w) 


(9.41) 
其 中 ，google_df (w) 表示 Google 搜索 引擎 根据 查询 w 返回 的 网 页 数目 ， 可 通过 
Google API 估计 获得 。 
对 于 问题 @， 一 般 不 明确 设置 阔 值 ,而 是 要 求 D 中 一 定 比例 (如 三 分 之 一 以 上 ) 
的 网 页 满足 阔 值 6 的 要 求 。 


3. 基于 维基 百科 的 聚 类 方法 


维基 百科 是 目前 国际 上 最 大 的 半 结 构 化 知识 库 ， 包 含 大 规模 的 概念 以 及 概念 之 
间 丰 富 的 语义 知识 。 这 些 概念 绝 大 多 数 是 人 物 、 组 织 机 构 、 职 业 、 地 点 和 出 版 物 等 。 
维基 百科 中 的 每 一 篇 文章 描述 一 个 概念 ,文章 题目 对 应 概念 名 称 ， 例 如 “Artificial 
Itelligence”， 而 且 文 章 中 包含 了 丰富 的 概念 之 间 的 链接 信息 ， 能 够 直接 反映 概念 之 间 
的 相关 性 , 例如 “Artificial Intelligence” 的 网 页 中 包含 了 若干 超 链 接 , FHI “Computer 
Science”“Machine Learning” 和 “Natural Language Processing” 等 概念 。 因 此 , 在 实 
体 消 歧 任 务 中 , 维基 百科 可 以 作为 一 个 强大 的 背景 知识 。 

以 下 面 三 个 句子 为 例 , 介绍 利用 维基 百科 对 “Michael Jordan ”进行 消 靶 的 方法 。 

MJ1: Michael Jordan is a leading researcher in machine learning and artificial 
intelligence. 

MJ2: Michael Jordan has published over 300 research articles on topics in computer 
sciences, statistics and cognitive science. 

MJ3: Michael Jordan wins NBA MVP. 

基于 维基 百科 的 聚 类 方法 分 为 三 个 步骤 : 四 利用 维基 百科 的 概念 向 量 表示 每 一 个 实 
体 指称 ; @ 计 算 实体 指称 之 间 的 相似 度 ; @@ 利 用 层次 合并 聚 类 算法 对 实体 指称 进行 聚 类 ， 
从 而 实现 消 歧 。 由 于 第 三 步 可 以 采用 前 面 9.4.1 节 介绍 过 层次 合并 聚 类 算法 (HAC), 
此 这 里 不 再 獒 述 , 只 介绍 前 两 个 步骤 的 实现 方法 。 

基于 如 下 考虑 : 如 果 两 个 指称 指向 相同 的 实体 概念 , 那么 它们 所 在 上 下 文中 的 维基 
百科 概念 应 该 是 高 度 相关 的 ， 和 否则 , 它们 上 下 文中 的 概念 不 会 很 相关 。 因 此 , 对 于 一 个 实 
体 指称 mm， 可 以 用 其 上 下 文中 的 维基 百科 概念 列表 表示 : 


m = {(c1, w (c1, M)) , (C2, w (C2, m)) , -+> , (Cn, W (Cn, m))} (9.42) 
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其 中 , w (ci,m) 表示 上 下 文中 的 维基 百科 概念 ci 与 实体 指称 m 的 相关 性 得 分 , 可 由 下 
面 的 公式 计算 得 到 : 
w (ck, m) = Ea 5 ST (C, Ck) (9.43) 
|m| CkEM,Ck#C 


FE, sr (c ck) 表示 两 个 维基 百科 概念 之 间 的 相关 性 得 分 , 利用 以 下 公式 计算 : 
log (max (|A| , |B])) — log (|A N BI) 
log (|W|) — log (min (|A| , |B])) 

其 中 , A M B 分 别 表示 维基 百科 中 链接 到 c; 和 cj 所 有 概念 的 集合 , W 是 维基 百科 中 的 
概念 总 数 。 根 据 上 述 公式 得 到 的 计算 结果 , 可 以 将 MJ1、MJ2 和 MJ3 分 别 表 示 成 如 下 
形式 : 

MJ1: Researcher (0.42) Machine Learning (0.54) Artificial Intelligence (0.51) 

MJ2: Research (0.47) Statistics (0.52) Computer Science (0.52) Cognitive Science 
(0.51) 

MJ3: NBA (0.57) MVP (0.57) 

接 下 来 需要 计算 任意 两 个 指称 mi 和 mj 之 间 的 相似 度 。 首 先 , 将 mz 和 mj 中 的 概 
念 进行 对 齐 , 例如 , 对 于 m, 中 的 任意 一 个 概念 c, Em 中 搜索 与 其 最 相似 的 概念 : 


sti(e;,¢;) = (9.44) 


align (c, mj) = argmax sr (c, ck) (9.45) 
chem; 


然后 , 计算 my 一 my 方向 的 语义 相关 性 得 分 : 


` w (c, mi) x w (align (c, mj), mj) x sr (c, align (c,m,)) 
SR (m; > mj) = =" 9.46 
(m ms) > w (c, mi) x w (align (c, mj) , mj) ( ) 
cEmi 
类 似 地 , 可 以 计算 SR (mj 一 mi)。 
最 后 , 通过 以 下 公式 可 以 求 得 实体 指称 mi 和 mj 之 间 的 相似 度 : 


Sim (mi, mj) = 5 (SR (mi > mj) +SR(m; — m;)) (9.47) 
基于 任意 两 个 实体 指称 之 间 的 相似 度 , 调用 层次 合并 聚 类 算法 实现 最 终 的 实体 消 歧 。 
关于 这 项 工作 的 详细 介绍 可 参阅 文献 [Han and Zhao, 2009a]。 

9.4.2 ”基于 链接 的 实体 消 歧 


基于 链接 的 实体 消 歧 也 称 为 实体 链接 ,其 目标 是 学 习 一 个 映射 函数 了 : M x KK 一 
五 ， 将 文档 中 每 一 个 实体 指称 M = {m,m ,mn} 准确 地 链接 到 实体 概念 集合 
E = {e1,€2,--- ,er} 中 的 某 个 对 应 的 实体 。 通常 采用 维基 百科 作为 背景 知识 KK 
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假设 某 个 文档 由 如 下 句子 组 成 : 

EL1: Michael Jordan is a leading researcher in machine learning and artificial 
intelligence, and he also plays basketball in free time. 

实体 指称 集合 为 : {Michael Jordan, researcher, machine learning, artificial intel- 
ligence, basketball}, $% F, “Michael Jordan” 的 歧义 性 最 大 ， 其 候选 实体 概念 包括 
{Michael Jordan (basketball player), Michael Jordan (football player), Michael Jordan 
(mycologist), Michael I. Jordan (professor), …}。 实 体 链接 的 目的 是 将 该 文档 中 的 
Michael Jordan 链接 至 Michael Jordan (professor). 

典型 的 实体 链接 方法 包括 两 个 步骤 : @ 确 定 候选 实体 概念 ; QATAR TE SE A HEAT 
排序 。 候 选 概念 的 确定 就 是 对 于 给 定 的 实体 指称 m, ME 中 找 出 可 能 的 候选 集合 Emo 
对 候选 实体 概念 进行 排序 就 是 对 候选 集合 Em 中 的 所 有 实体 进行 打分 , 选择 排 在 最 前 面 
的 实体 概念 作为 最 终 答案 。 


1. 候选 实体 概念 的 确定 


候选 实体 概念 的 确定 直接 影响 实体 链接 的 候选 空间 ,如果 正确 的 实体 概念 未 能 进入 
候选 空间 , 无 论 后 续 的 实体 排序 算法 多 么 准确 , 都 无 法 获得 正确 的 答案 。 因此, 确定 候选 

借助 搜索 引擎 确定 候选 实体 概念 是 一 种 比较 简单 的 方法 。Shen et al. (2015) 总 结 
了 多 种 候选 实体 概念 集合 的 确定 方法 ,其 中 构造 “指称 、 实 体 概念 ”词典 的 方法 被 广泛 
采用 。 这 种 方法 以 维基 百科 为 知识 源 构 造 “ 指 称 、 实 体 概念 ”词典 , 最 终生 成 键 值 对 形 
式 的 词典 Dic = {key, value}, HE, key 表示 实体 指称 (如 Michael Jordan), value 表 
示 指 称 对 应 的 候选 概念 集合 (如 { Michael Jordan (basketball player), Michael Jordan 
(football player), Michael Jordan (mycologist), Michael I. Jordan (professor), .…})。 构 
造 词 典 Dic 时 主要 利用 维基 百科 页 面 的 各 种 特性 ,如 实体 页 面 、 重 定向 页 面 、 消 歧 页 面 、 
首 段 黑 体 短语 和 页 面 中 的 超 链接 等 。 

在 有 实体 描述 的 维基 百科 页 面 中 , 题目 通常 是 实体 概念 对 应 的 最 常见 的 指称 , 例如 
标题 是 “Microsoft” 的 维基 百科 页 面 描述 的 是 “Microsoft Corporation” 的 实体 概念 。 
DE, “标题 、 实 体 概念 ”可 作为 (key, value) 加 入 到 词典 中 。 

重 定 向 页 面 连接 了 相同 实体 概念 的 不 同 指称 ,一 般 表示 同义词 或 缩写 等 ， 例 
如 , “Edson Arantes do Nascimento” 重 定向 到 “Pelé”。 因 此 , “Edson Arantes do Nasci- 
mento” 与 “Pelé” 可 分 别 作 为 (key, value) 添加 到 词典 中 。 

消 歧 页 面包 含 了 同一 指称 对 应 的 不 同 实体 概念 , 例如 “Michael Jordan” 的 消 歧 页 面 
中 包含 了 多 个 指向 不 同 概念 的 链接 。 因 此 , 可 将 消 歧 页 面 的 标题 作为 key, 页 面 中 的 所 有 
实体 概念 作为 value 加 入 到 词典 中 。 

维基 百科 页 面 的 第 一 段 往往 是 整 篇 文章 的 一 个 摘要 , 经 常 包含 一 些 字 体 加 黑 的 短 
语 。 这 些 短语 通常 是 对 应 实体 概念 的 别名 、 全 称 或 者 缩写 等 。 例如 ,“Michael Jordan” Hy 
页 面 首 段 包含 字体 加 黑 的 短语 “Michael Jeffrey Jordan” 和 “MJ”, 前 者 是 全 称 , 后 者 
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是 缩写 。 因 此 ， 可 将 每 个 黑体 短语 作为 key, 页 面 描述 的 实体 概念 作为 value 添加 到 词 
典 中 。 

每 个 维基 百科 页 面 中 包含 若干 个 超 链接 ， 如 “Michael Jordan ”页面 中 包含 超 链 
接 “ACC”, 指向 页 面 “Atlantic Coast Conference”。 这 些 超 链接 通常 提供 了 实体 概念 的 
别名 或 者 缩写 等 信息 。 因 此, 可 将 超 链 接 部 分 作为 key， 所 链接 的 实体 作为 value 加 入 到 
词典 中 。 

通过 上 述 的 操作 , 可 以 构建 一 个 全 面 的 指称 到 候选 实体 概念 的 映射 词典 Dic。 根据 
Dic, 文档 中 的 每 个 实体 指称 m 可 通过 字符 串 的 精确 匹配 或 部 分 匹配 的 方式 获得 对 应 候 
选 实体 概念 集合 Em.〈 据 统计 , 每 个 实体 指称 平均 对 应 10 个 以 上 的 候选 实体 概念 )。 

Han and Zhao (2009b) 曾 将 实体 指称 与 上 下 文 词语 一 起 提交 给 Google 等 搜索 引擎 ， 
将 返回 的 在 维基 百科 页 面 中 描述 的 实体 作为 候选 实体 概念 集合 。 


2. 候选 实体 概念 的 排序 


给 定 指称 m 的 候选 实体 概念 集合 Em 以 后 ,下 一 步 就 是 对 Em 中 的 实体 进行 排序 
以 获得 正确 的 实体 链接 关系 。 从 是 否 独立 预测 的 角度 , 实体 排序 方法 可 被 划分 为 独立 式 
实体 排序 和 联合 式 实体 排序 两 种 。 独 立 式 实体 排序 方法 假设 文档 中 的 多 个 指称 之 间 是 相 
互 独立 的 , 对 某 个 指称 的 候选 实体 进行 排序 时 仅仅 关注 该 指称 的 上 下 文 和 候选 实体 概念 
的 语义 信息 。 而 联合 式 实体 排序 方法 假设 文档 中 的 指称 是 相关 的 , 在 一 定 程度 上 属于 同 
一 个 主题 , 因此 在 实体 链接 过 程 中 应 该 是 相互 影响 的 。 

以 下 针对 这 两 类 方法 , 分 别 介 绍 几 种 典型 的 实体 排序 模型 。 

(1) 独立 式 实体 排序 方法 

独立 式 实体 排序 方法 面临 的 核心 问题 是 如 何 计算 指称 与 候选 实体 概念 之 问 的 语义 相 
关 度 。 模型 上 下 文 和 语义 知识 库 为 主要 排序 依据 。 

基于 上 下 文 的 排序 方法 假设 共享 相似 上 下 文 的 指称 和 实体 概念 之 间 具 有 链接 关系 ， 
该 方法 的 关键 是 度量 指称 与 候选 实体 概念 之 间 的 上 下 文 相似 性 。 向 量 空间 模型 是 使 用 最 
为 广泛 的 上 下 文 表 示 方 法 。 首先 , 为 指称 和 候选 实体 概念 构建 上 下 文 向 量 , 例如 以 指称 
在 文本 中 的 位 置 为 中 心 取 土 K 个 词语 的 窗口 (如 天 = 50)。 同样 , 实体 概念 所 在 维基 百 
科 网 页 中 的 所 有 词语 也 可 以 作为 上 下 文 。 然后, 采用 词 袋 模型 表示 指称 和 实体 概念 的 上 
FX, 用 TF-IDF 计算 指称 与 实体 概念 之 间 的 相似 度 SimrF_Ipr[Chen et al., 2010]。 

[Han and Zhao, 2009b] 曾 利用 上 下 文中 出 现 的 维基 百科 概念 构建 上 下 文 向 量 , 然 
后 计算 指称 与 实体 概念 之 间 的 语义 距离 Simwiai。 这 与 基于 聚 类 的 实体 消 歧 方 法 中 计 
算 Sim (mi, my) 的 方法 一 致 ， 只 是 将 维基 百科 页 面 中 的 候选 实体 概念 视 为 一 个 实体 
指称 。 

随 着 深度 学 习 方法 的 兴起 , 近年 来 出 现 了 基于 神经 网 络 的 实体 链接 算法 , 其 核心 思 
想 是 利用 分 布 式 文本 表示 模型 计算 指称 与 候选 实体 概念 之 间 的 语义 相似 性 Simaistri [He 
et al., 2013; Sun et al., 2015]. FA 9.12 是 基于 神经 网 络 的 实体 链接 算法 的 基本 框架 
[Sun et al., 2015]。 该 算法 的 目标 是 计算 指称 及 其 上 下 文 与 实体 概念 之 间 的 相似 度 。 首 
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先 , 对 上 下 文中 的 词语 和 位 置 进行 向 量 表示 , 利用 卷 积 神经 网 络 获得 上 下 文 的 分 布 式 
向 量 表示 veo 同时 , 利用 词 向 量 平均 的 方法 获得 指称 、 实 体 概念 和 实体 类 别 ! 的 向 量 
HAR, 分 别 记 为 Vm Vew 和 vers 然后 , 采用 张 量 模型 分 别 组 合 ve 和 wv、vew 和 ver 
得 到 指称 及 上 下 文 的 向 量 表示 vme 和 实体 概念 的 综合 表示 ves 最 后 ,利用 余弦 距离 
Simaistri = cosine (Vme, Ve) 度量 指称 与 候选 实体 概念 之 间 的 相似 度 。 


| 位置 向 量 


wwe 目 目 目 “ 目 目 目 
| EFX 指称 词语 ， 实体 词 语 。 ”实体 类 别 


| isa leading researcher in machine ; i 
| le arning and artificial intelligence Michael Jordan Michael Jordan (professor) 


图 9.12 ”基于 神经 网 络 模型 的 实体 链接 方法 


关于 文本 分 布 式 表示 , 在 本 书 第 3 章 中 已 经 详细 介绍 了 卷 积 神经 网 络 和 词 向 量 平 均 
方法 , 这 里 不 再 歼 述 。 以 下 简要 介绍 张 量 模型 的 计算 方法 。 
给 定 列 向 量 we E RI 和 wm E RI, 利用 张 量 模型 计算 Ome 的 公式 如 下 : 


Ume = [ve; Ym)” [Mi]! [ve; vm] (9.48) 


其 中 ，[we; vm] 表示 上 下 文 向 量 与 指称 向 量 的 拼接 ，JMi; e RO 表示 一 个 张 量 , 每 个 张 
量 对 [we; Um] 进行 运算 得 到 一 个 元 素 , 工 个 张 量 运算 将 得 到 一 个 工 维 的 向 量 输出 ， 即 
Ume E RY. 利用 相同 的 方法 可 以 获得 实体 概念 的 向 量 表 示 veo 其中, 词 向 量 、 位 置 向 量 
和 张 量 和 矩阵 M; 都 是 神经 网 络 参数 ， 需 要 在 训练 过 程 中 进行 优化 。 

训练 过 程 通常 是 在 标注 数据 集 上 优化 某 个 目标 函数 。 在 基于 排序 的 实体 链接 中 , 一 
般 用 最 大 间隔 损失 (max-margin loss, MML) 作为 目标 优化 函数 , 希望 存在 链接 关系 的 
指称 实体 对 (m,e) 比 不 存在 链接 关系 的 指称 实体 对 (m,e’) 具有 更 高 的 相似 度 得 分 ， 并 
且 分 差 应 该 大 于 某 个 阔 值 =: 


loss = > max {0, score (m, e’) 十 = 一 score (m, e)} (9.49) 

(me)eT 
其 中 , T 表示 标注 数据 集中 所 有 正确 的 指称 实体 对 ，(m,e) EWR, (m,e) 是 负 例 
FEA, e Ae, 可 从 实体 集合 巨 中 随机 选择 。 得 分 函数 score (m,e) 可 以 采用 指称 实体 对 


1 实体 类 别 从 知识 库 中 检索 得 到 , 一 般 用 一 个 短语 表示 , 例如 Donald Trump 的 实体 类 别 是 president of the United 
States。 
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之 间 分 布 式 表示 的 相似 度 Simaistri， 也 可 以 对 SimrFrmF、Simwis 和 Simaistr 等 各 种 相 
似 度 进行 加 权 。 在 加 权 算 法 中 , 除了 这 些 相 似 度 特征 以 外 , 还 可 以 采用 候选 实体 概念 的 
流行 度 特征 Pop (ei;), 其 计算 公式 如 下 : 
countm (ei) 
5 countm (e;) 
ejEEm 
其 中 , countm (ei) 表示 所 有 维基 百科 页 面 中 以 指称 m 为 链接 指向 e: 的 次 数 。 

(2) 联合 式 实体 排序 方法 

联合 式 实体 排序 方法 对 文档 中 所 有 指称 的 实体 链接 进行 联合 推断 ， 以 充分 利用 文档 
主题 的 一 致 性 特点 。 下面 以 基于 图 的 排序 算法 为 例 [Han et al., 2011], 介绍 联合 式 实体 
排序 方法 。 

该 方法 包含 两 个 步骤 : @ 为 文档 中 的 指称 及 其 对 应 的 候选 实体 概念 集合 构建 语义 相 
KA| (referent graph, RG); @ 在 相关 图 RG 上 进行 实体 链接 的 全 局 推断 。 以 本 节 开始 时 
给 出 的 EL1 句子 为 例 ,首先 介绍 语义 相关 图 的 构建 方法 ,然后 阐述 实体 链接 的 全 局 推断 
算法 。 

文档 中 的 指称 与 候选 实体 概念 之 间 的 相关 图 RG 是 一 个 加 权 的 无 向 图 G = (V, E)» 
其 中 , V 包含 文档 中 所 有 指称 与 对 应 的 候选 实体 概念 , 忆 中 包括 两 类 边 , 一 类 是 “ 指 
称 -实体 ” 边 , 刻画 指称 与 实体 之 间 的 相关 性 ; 另 一 类 是 “实体 -实体 ” 边 , 刻画 实体 之 间 
的 语义 相关 性 。 图 9.13 是 文档 EL1 对 应 的 一 个 语义 相关 图 。 如何 计算 “指称 -实体 ” 边 
和 “实体 -实体 ” 边 的 权 值 是 构建 RG 图 的 核心 问题 。 图 中 “指称 -实体 ”的 相关 性 可 通过 
基于 上 下 文 的 词 袋 模型 实现 , 即 前 面 介绍 的 SimzTEp-IpF (me)。“ 实 体 -实体 ”语义 相关 性 采 
用 9.4.2 节 介 绍 的 基于 维基 百科 的 实体 概念 相关 度 计 算 公式 sr (ei, ej)。 

在 图 9.13 P, Michael Jordant, Michael Jordan?, Michael Jordan? 和 Michael 
Jordant 分 别 表示 Michael Jordan (basketball player), Michael Jordan (football player), 
Michael Jordan (mycologist) 和 Michael I. Jordan (professor). 

构建 完成 指称 -实体 相关 图 RG 之 后 , 下 一 步 需要 进行 实体 链接 的 联合 推断 。 该 联合 
推断 过 程 可 分 为 三 个 步骤 : GD 为 指称 的 每 个 候选 实体 概念 赋予 一 个 置信 度 得 分 ; @ 基 于 
图 的 随机 游 走 思想 利用 “指称 -实体 ” 边 和 “实体 -实体 ” 边 进行 置信 度 的 传播 ; @ 根 据 实 
体 置信 度 进 行 最 后 的 实体 链接 推断 。 

在 第 中 步 的 初始 化 阶段 ， 候 选 实体 概念 的 置信 度 得 分 由 与 之 对 应 指称 的 重要 性 得 分 
近似 替代 。 文档 中 每 个 指称 m 的 重要 性 得 分 由 归 一 化 的 TF-IDF 值 表示 : 
tfidf (m) 
oD tfidf (m’) 


meD 


Pop (ei) = (9.50) 


Importance (m) (9.51) 


其 中 , m 表示 文档 D 中 的 任意 指称 。 
第 @@ 步 的 关键 是 计算 候选 实体 概念 的 最 终 置信 度 得 分 rp (e)。rp (e) 的 计算 涉及 三 
个 变量 , 分别 是 s, r FIT. s 表示 初始 置信 度 向 量 ，si = Importance (mi); r 表示 候选 
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图 9.13 ”指称 和 候选 实体 构成 的 语义 相关 图 


Michael Jordan* 


实体 概念 最 终 置 信 度 的 得 分 向 量 , ri 表示 第 i 个 实体 节点 的 置信 和 度 , 即 rp (ei); T 是 传 
WENE, Ty 表示 节点 了 到 节点 i 的 置信 和 度 传 递 权 重 。 Tiz 分 为 指称 到 实体 ! 的 传递 权重 
已 (mm > e) 和 实体 到 实体 的 传递 权重 P(e; 一 ej) 分 别 通 过 如 下 公式 求 得 : 


Simrr-pr (m, e) 


P(m—e) (9.52) 
y Simrr-ipr (m, e’) 
e EEm 
Ple = ej) = ves) (0.53) 
> sr(ei,ex) 
ere Nm 


HP, Nm 表示 e; 在 图 RG 中 的 相 邻 实体 。 依据 s AT, 通过 如 下 迭代 过 程 计算 r: 
r=s (9.54) 
ritl=(1 -NxTxri+Axs (9.55) 
求解 上 述 式 子 能 够 得 到 封闭 解 : 
r=Ax(I-(1-A)T)'s (9.56) 
其 中 , 工 是 单位 和 矩阵。 最终, 文档 中 每 个 指称 的 实体 链接 可 通过 下 面 的 公式 优化 得 到 : 


e* = argmax SimTF-IDF (m,e) x rp (e) (9.57) 


1 指称 到 实体 的 传递 是 单 向 的 , 不 存在 实体 到 指称 的 传递。 
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9.4.3 ”实体 消 歧 任务 的 评价 方法 


针对 基于 聚 类 的 实体 消 茂 方法 和 基于 链接 的 实体 消 茂 方法 ,研究 者 们 分 别 设计 了 不 
同 的 性 能 自动 评价 方法 。 以 下 分 别 进行 介绍 。 

针对 基于 聚 类 的 实体 消 歧 任 务 ， 主要 评测 文档 集合 中 相同 名 字 的 指称 ! 取 类 效果 。 候 
设 在 个 指称 的 集合 上 人 工 标注 的 正确 聚 类 结果 是 到 = {LLa ,LM}， 系 统 给 出 的 
聚 类 结果 是 C = {C1,Co,--- Cn}. 自动 评价 方法 主要 从 聚 类 的 纯度 (purity) 和 逆 纯 
RE Ginverse purity) 两 个 角度 进行 评价 。 对 于 每 个 系统 的 聚 类 Ci， 在 正确 聚 类 结果 工 中 
一 定 可 以 找到 与 之 交集 最 多 的 聚 类 Lj aa 称 为 类 别 C: 的 正确 率 , 所 有 类 别 正确 
率 的 加 权 和 称 为 纯度 。 逆 纯度 的 计算 与 纯度 类 似 ， 只 是 道 纯度 关注 聚 类 的 召回 率 。 两 个 
指标 的 计算 公式 如 下 : 


ICi| i 
Purity = 2 a mae Precision (C;, L;) (9.58) 
t 
Precision (Gi, £2) = es (9.59) 
ICil 
Inverse Purity = 5 l:l max Precision (Li, Cj) (9.60) 
An j oe i 
t 
aC: 
Precision (Li, Cj) = (E: nO; (9.61) 
Lil 
SULTS HOT AE A AERE RAFE (Fa-os) 度量 聚 类 的 性 能 : 
i 
Fa i TI (9.62) 
+(1-a) 


2 Purity Inverse Purity 


针对 基于 链接 的 实体 消 歧 任 务 , 其 评测 方法 类 似 于 分 类 任务 评测 ， 直 接 利用 准确 
率 和 召回 率 度量 实体 链接 方法 的 性 能 。 对 于 文档 D, 假设 人 工 标注 的 指称 列表 为 M = 
{mi,mj,--- mm} 正确 的 实体 链接 结果 为 EB = {ei ej, ,em}> 而 系统 识别 的 指称 列 
表 为 M' = {mp mp, my p 系统 产生 的 实体 链接 结果 为 Bp' = {el ejn ey p 其 
中 i ji, 六 分 别 表示 指 称 在 文档 中 的 位 置 。 那么 , 系统 输出 的 指称 识别 结果 和 实体 链接 
结果 与 人 工 标注 结果 的 交集 M* 和 E* 分 别 为 : 


M* = {mxlVEk, mx = mk} (9.63) 
E* = {eklVk,, mx E€ M*,e, = ex} (9.64) 


其 中 , M* 是 系统 识别 的 指称 列表 中 正确 的 元 素 集合 , E* 是 M* 中 实体 链接 正确 的 


:+ 该 指称 通常 是 人 名 ， 且 含有 歧义 ,在 不 同 的 上 下 文 语 境 下 对 应 不 同 的 实体 概念 , 如 Michael Jordan 对 应 若干 个 文 
Pi 基于 聚 类 的 实体 消 歧 方法 对 文档 集合 中 所 有 出 现 的 Michael Jordan 都 进行 聚 类 评测 。 
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元 素 集合 。 正确 率 和 召回 率 以 及 玉 值 分 别 通过 如 下 式 子 计算 : 
| 


E 
Precision = | 


IF] > 100% (9.65) 
E 
Recall = a x 100% (9.66) 


2 x Precision x Recall 


H= Precision + Recall 


(9.67) 


9.5 关系 抽取 


在 非 结构 化 的 自然 语言 文本 中 ,一 个 个 独立 的 实体 无 法 提供 丰富 的 结构 化 语义 信 
息 。 例如 , 在 下 面 的 两 个 句子 中 , 仅仅 识别 出 人 名 “姚明 ”和 “叶莉 ”以 及 地 名 “上 海 ”， 
很 难 揭示 文本 所 蕴含 的 信息 。 

例 3: [姚明 ] 是 [上 海 ] 人 。[ 姚 明 ]2007 年 与 [叶莉 ] 正式 领取 了 结婚 证 书 。 

可 以 把 真实 世界 看 作 是 一 个 由 节点 和 边 构 成 的 复杂 网 络 结构 : 节点 表示 各 种 实体 ， 
边 表示 实体 间 的 关系 。 因 此 , 除了 识别 出 实体 , 并 进行 消 歧 以 外 , 还 有 一 项 重要 的 任务 是 
识别 出 实体 之 间 的 语义 关系 。 在 例 3 中 ,“ 姚 明 ” 与“ 上海” 之 间 是 “市 民 ” 关 系 , 可 以 表 
示 成 : citizen_of (姚明 ， 上海);“ 姚 明 ” 和 “叶莉 ”是 “配偶 ”关系 , 表示 成 : spouse (Wk 
明 , 叶莉 )。 

关系 抽取 是 一 项 识别 文本 中 的 实体 并 判别 实体 之 间 关系 的 技术 , 该 技术 在 知识 图 谱 
构建 、 社 交 网 络 分 析 和 自动 问答 等 任务 中 扮演 着 关键 角色 。 

形式 化 地 ， 实 体 关系 可 以 表示 为 一 个 n+l 元 组 上 = (ei,e2,… ,en,7)， 其 中 
el,e2,… ,en 表示 自然 语言 文本 中 的 nn 个 实体 , 而 7 表示 个 实体 之 间 的 关系 ， 称 
An 元 关系 。 目前 , 2 元 关系 (两 个 实体 之 间 的 关系 ) 是 研究 的 主流 , 而 且 大 多 数 限 定 两 
个 实体 在 同一 个 句子 中 。 所 以 , 本 节 讨 论 的 关系 抽取 方法 也 聚焦 于 一 句 话 中 的 一 对 实体 
概念 识别 和 关系 抽取 ， 即 识别 句子 中 的 三 元 组 t= (ei,e2,7)。 在 上 面 例 3 H, 每 个 分 句 
包含 一 个 三 元 组 , 分 别 为 : i= (姚明 , Lif, citizen_of) All tp = (姚明 ， 叶莉 ,spouse) 。 

假设 句子 中 的 实体 已 经 被 识别 出 来 ,那么 , 实体 之 间 的 关系 识别 就 是 关系 类 别 
判断 。 关 系 的 类 别 在 开放 域 环境 中 有 成 千 上 万 种 , 而 且 未 知 的 关系 种 类 繁多 ,为 了 
简化 问题 , 我 们 以 信息 抽取 国际 评测 (如 MUC、ACE、SemEval 等 ) 为 例 说 明 关 系 
抽取 技术 的 实现 方法 。 这 三 个 国际 评测 均 提 供 人 工 正确 标注 的 实体 关系 数据 ( 记 作 
Dtrain = {si (eiyei2,7i)} 1)、 关 系 类 别 集合 GUE R = (re) 和 测试 数据 ( 记 作 
Drest = {sj, (ej1,ej2)}31)， 其 中 ,训练 数据 包括 N 个 句子 每 个 句子 记 作 s) 和 种 
关系 。 关系 识 别 系统 需要 判别 测试 数据 中 的 每 对 实体 概念 (ej1, ejz) 属于 关系 集合 R 中 
的 哪 一 类 。 例如 , 在 ACE 2003 和 2004 关系 抽取 评测 中 , 标注 数据 包括 来 自 于 1000 个 
英文 文档 的 16771 个 关系 实例 ，5~7 个 主要 关系 类 别 ,，23~24 个 子 关系 类 别 。 K 9.4 给 
出 了 ACE 2003 训练 数据 中 各 类 关系 的 统计 信息 。 


9.5 关系 抽取 205 


表 9.4 ACE 2003 训练 集中 的 关系 类 别 分 布 情况 


关系 类 别 (Type) 子 关系 类 别 (Subtype) 出 现 频次 
Based-in (驻扎 位 置 ) 347 
AT (2781) (处 所 ) Located (当前 所 在 地 ) 2126 
Residence (居住 地 ) 308 
Relative-location* (相对 位 置 ) 201 
NEAR(201) (临近 ) Part-of (部 分 ) 947 
PART(1298) (部 分 ) Subsidiary (附属 ) 355 
Other (其 他 ) 6 
Affiliate-partner (联盟 式 伙伴 ) 204 
Citizen-of (市 民 ) 328 
Client (客户 ) 144 
Founder (创始 人 ) 26 
ROLE (4756) (角色 ) General-staf (职员 ) 1331 
Management (管理 ) 1242 
Member (成 员 ) 1091 
Owner (所 有 权 人 ) 232 
Other (其 他 ) 158 
Associate* (合作 伙伴 ) 91 
Grandparent (祖父 母 ) 12 
Other-personal (其 他 亲戚 关系 ) 85 
ee Other-professional* (其 他 专业 关系 ) 339 
SOCED (27) (ERRA Other-relative* (其 他 关系 ) 78 
Parent (父母 ) 127 
Sibling* (兄弟 姐妹 ) 18 
Spouse* (配偶 ) 77 


其 中 , 带 有 星 号 CO 标记 的 关系 是 对 称 的 , 例如 , 在 配偶 (Spouse) 关系 中 , A 是 B 的 配偶 , B 也 是 A 的 配偶 。 


AK 9.4 中 的 统计 数据 可 以 看 出 , 关系 类 别 的 分 布 非常 不 均衡 , 如 角色 (ROLE) 关 
系 下 的 创始 人 (Founder) 子 关系 以 及 社会 (SOCIAL) 关系 下 的 祖父 母 (Grandparent) 
子 关 系 仅 分 别 出 现 了 26 次 和 12 次, 而 处 所 (AT) 中 的 Located 子 关 系 超 过 了 2100 
次 。 另 外 ，ACE 关系 抽取 任务 中 还 定义 了 一 些 很 难 识别 的 子 关 系 类 别 ， 如 表示 位 置 
关系 的 “Based-in”“Located”“Residence”。 在 “中 国 公司 华为 的 生意 遍布 全 世界 ” 
中 ,“ 华 为 "和 “中 国 ” 是 “Based-in” 关 系 , 在 “ 李 芒 去 北京 出 差 了 ”中 ,“ 李 芒 ” 和 “北京 ” 
Æ “Located” KR; 而 在 “ 李 芒 搬 到 北京 了 ”中 ,“ 李 芒 ” 和 “北京 ”是 “Residence” 关 系 。 
可 见 , 这 些 关 系 之 间 的 细微 差别 人 类 专家 有 时 候 都 很 难 区 分 。 


1 于 关系 类 别 的 集合 已 知 ,限定 领域 上 的 关系 识别 任务 通常 被 转化 为 有 监督 的 关系 
分 类 问题 , 基本 实现 思路 是 : 从 两 个 实体 及 其 所 在 句子 的 上 下 文中 抽取 代表 性 特征 , 利 
用 机 器 学 习 模 型 在 标注 语 料 上 训练 分 类 模型 f(s, (e1,e2)) € Ry 最 后 , 分 类 器 预测 实体 
之 间 的 关系 。 分 类 方法 一 般 分 为 基于 高 散 特 征 的 方法 和 基于 分 布 式 特征 的 方法 。 下 面 分 
别 进行 介绍 。 
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9.5.1 ”基于 离散 特征 的 关系 分 类 方法 


判别 实体 之 间 的 关系 最 重要 的 是 如 何 挖掘 和 利用 实体 及 其 上 下 文 特征 信息 。 例 如 
在 训练 数据 中 “结婚 ” 是 表示 “配偶 ”关系 的 关键 特征 之 一 , 例 3 的 第 二 子 句 中 ,如果 能 
够 有 效 地 挖掘 出 “领取 结婚 证 书 ” 这 样 重要 的 上 下 文 特征 “姚明 ”和 “叶莉 ”的 语义 关系 
便 可 以 得 到 准确 的 预测 。 

基于 离散 特征 的 关系 分 类 方法 也 有 若干 种 , 它们 之 间 的 主要 区 别 在 于 不 同 的 特征 利 
用 方法 和 分 类 模型 。 在 特征 选择 方面 , 可 以 采用 词汇 、 句法 和 语义 等 不 同 层次 的 特征 ; 在 
分 类 器 模型 方面 ,可 以 利用 最 大 炉 、 感 知 器 和 支持 向 量 机 等 模型 。 下 面 以 支持 向 量 机 为 
分 类 器 模型 ， 从 特征 选择 的 角度 介绍 两 种 典型 关系 分 类 方法 : 基于 显 式 离散 特征 的 分 类 
方法 和 基于 隐 式 特征 的 核 函数 分 类 方法 。 


1. 基于 显 式 离散 特征 的 关系 分 类 方法 


顾名思义 ， 显 式 离散 特征 是 指 词汇 、 句 法 和 语义 结构 等 显 式 的 字符 串 特征 。 假 设 以 
判别 “姚明 2007 年 与 叶 痢 正式 领取 了 结婚 证 书 ” 句 子 中 “姚明 ”和 “叶莉 ”的 关系 为 例 ， 
介绍 可 采用 的 离散 特征 。Zhou et al. (2005) 在 离散 特征 选取 方面 做 了 非常 细致 的 研究 工 
VE, 根据 他 们 的 研究 , 如 下 离散 特征 比较 有 效 。 

(1) 词汇 化 离散 特征 

这 类 特征 主要 有 4 类 : 实体 对 (e1,e2) 包含 的 词汇 ; DOKK e1 和 es 之 间 的 词汇 ; 
图 实体 el 前 面 的 词汇 ; @ 实 体 ez 后 面 的 词汇 。 对 应 上 面 的 例子 , 具体 特征 列举 如 下 : 

WE1: 实体 el 中 的 词汇 特征 , 该 例 中 为 “姚明 ”; 

HE1: 实体 ei 的 中 心 词 特征 ,如 果 el 是 一 个 短语 , HEL 则 对 应 短语 的 中 心 词 ， 如 
Re 只 是 一 个 词语 , HEL 则 为 el 本 身 , 该 例 中 为 “姚明 ”; 

WE2 : 实体 eg 中 的 词汇 特征 , 该 例 中 为 “叶莉 ”; 

HE2 : 实体 es 的 中 心 词 特征 , 该 例 中 为 “叶莉 ”; 

HE12: HE1 Ñ HE2 的 组 合 , 即 “ 姚 明 - 叶 莉 ”; 

WBNULL : 布尔 变量 , 车 el 和 es 之 间 没 有 词汇 , WAR, 否则 为 假 。 在 该 例子 中 
为 假 ; 

WBFL : 4 e, 和 es 之 间 仅 有 一 个 词语 , 则 WBFL 表示 该 词语 ; 

WBF: He 和 es 之 间 有 多 个 词语 , W WBF 表示 第 一 个 词语 , 该 例 中 为 “2007 


WBL: # e 和 es 之 间 有 多 个 词语 , W WBL 表示 最 后 一 个 词语 , 该 例 中 为 “与 ”; 

WBO :车 el 和 es 之 间 有 多 个 词语 , W WBO 表示 除了 WBF 和 WBL 外 其 他 的 
词语 , 该 例子 中 WBO 的 值 为 空 ; 

BMI1F :el 之 前 的 第 一 个 词语 , 该 例子 中 “姚明 ”之 前 没有 词语 , 故 BMI1F 为 空 ; 

BMI1L :el 之 前 的 第 二 个 词语 , 该 例子 中 BMIL A; 

AMIF : es 之 后 的 第 一 个 词语 , 该 例子 中 AM1F 为 “正式 ”; 
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AMIL: es 之 前 的 第 二 个 词语 , 该 例子 中 AMIL 为 “领取 ”。 

(2) 实体 类 型 特征 

实体 类 型 对 判断 实体 之 间 的 语义 关系 具有 很 强 的 指示 性 作用 。 如 果 el 是 人 名 ,es 
是 组 织 机 构 名 ， 那么 , 基本 上 可 以 断定 e 和 es 之 间 的 关系 属于 下 面 集合 中 的 一 
种 : {Client, Founder, General-staff, Management, Member, Owner}. 因此 ,实体 类 型 
是 一 个 重要 的 特征 。 实 体 类 型 主要 包括 : 人 名 (PERSON)、 机 构 名 (ORGANIZATION)、 
地 名 (LOCATION)、 设 施 名 称 (FACILITY) 和 地 缘 政 治 实体 (Geo-Political Entity, fj 
写 为 GPE, 如 国家 名 称 ) 等 。 该 类 特征 的 使 用 方式 如 下 : 

ET12 :el 和 es 实体 类 型 的 组 合 ， 上述 例子 中 , ET12 为 “PERSON-PERSON”。 

(3) 实体 指称 层级 

实体 指称 特征 是 指 文本 中 的 实体 指称 类 型 ， 是 具体 名 称 (NAME)、 名 词性 代 
ii] (NOMIAL), 还 是 代词 (PRONOUN). 使 用 时 同样 采用 组 合 的 方式 : 

ML12 : el 和 es 指称 类 型 的 组 合 ， 上 述 例 子 中 , ML12 为 “NAME-NAME”。 

(4) 重合 特征 
重 县 特征 是 指 两 个 实体 e1 和 es 之 间 词 汇 的 重合 关系 , 具体 特征 包括 : 

#EB :el 和 es 之 问 的 实体 数目 ， 上述 例 子 中 #EB = 0; 

#WB: e1 和 es 两 个 实体 的 词汇 数目 ， 上 述 例 子 中 #WB = 2; 

E1 > E2: 布尔 变量 , WR el 包含 ea， 则 取 值 为 “ 真 ”， 否 则 为 “ 假 >。 上 述 例子 中 
该 布尔 变量 为 “ 假 ”。 类 似 的 特征 还 包括 : E2 > El, ET12+ E1 > E2, ET12+ El < 
E2, HE12+ E1 > E2 fil HE12+ E1 < E2. 

(5) 基本 短语 块 特征 

使 用 该 特征 之 前 ， 需 要 对 实体 所 在 的 句子 进行 短语 结构 分 析 。 基 本 短语 块 特征 主要 
包括 三 类 : 实体 对 (e1,€2) 之 间 的 短语 中 心 词 ， 分 为 第 一 个 短语 、 最 后 一 个 短语 和 中 间 
短语 的 中 心 词 ; @ 实 体 el 前 面 的 短语 中 心 词 , 包括 前 两 个 短语 的 中 心 词 ; 四 实体 e 后 
面 的 短语 中 心 词 , 包括 后 面 两 个 短语 的 中 心 词 。 同 时 还 可 以 考虑 实体 对 之 间 的 短语 路 径 。 
具体 使 用 方式 如 下 : 

CPHBNULL: 布尔 变量 , WR e, 和 es 之 间 没 有 短语 , WEA “Te”, 否则 , 取 值 
为 “ 假 ”。 上述 例 子 中 该 变量 为 “ 假 ”。 

CPHBFL : WR ey 和 es 之 间 仅 有 一 个 短语 , 那么 CPHBFL 表示 该 短语 的 中 心 
词 ， 否 则 为 空 。 在 上 述 例子 中 CPHBFL 为 空 。 

CPHBF : WẸ e, 和 es 之 间 有 多 个 短语 , 那么 CPHBF 表示 第 一 个 短语 的 中 心 
i, 否则 为 空 。 在 上 述 例 子 中 CPHBF 取 值 为 “2007 F”. 

CPHBL: WR e, 和 ez 之 间 有 多 个 短语 , 那么 CPHBL 表示 最 后 一 个 短语 的 中 心 
词 ， 和 否则 为 室 。 上 述 例子 中 CPHBL 取 值 为 “与 ”。 

CPHBO: 如 果 el 和 es 之 间 有 多 个 短语 , 那么 CPHBO 表示 除了 第 一 个 和 最 后 
一 个 短语 之 外 的 短语 的 中 心 词 , BAA LRT CPHBO 取 值 为 空 。 
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CPHBEIF : e, 之 前 第 一 个 短语 的 中 心 词 。 上 述 例 子 中 CPHBEI1F 取 值 为 空 。 

CPHBEIL: e 之 前 第 二 个 短语 的 中 心 词 。 上 述 例 子 中 CPHBE1L 取 值 为 空 。 

CPHAE1F : ea 之 后 第 一 个 短语 的 中 心 词 。 从 图 9.14 中 可 以 看 出 ，e2 后 面 有 两 
个 短语 ， 分 别 是 4DVP MVP, 这 两 个 短语 的 中 心 词 分 别 是 “正式 ”和 “领取 ”， 所 
以 , CPHAE1F 的 取 值 为 “正式 ”。 

CPHAELL : es 之 后 第 二 个 短语 的 中 心 词 。 在 上 述 例子 中 CPHAE1L 的 取 值 

CPP : 连接 两 个 实体 e, 和 es 在 短语 结构 树 中 的 路 径 。 由 图 9.14 可 以 看 出 , CPP 
的 取 值 应 为 “NP-IP-VP-PP-NP”。 

CPPH : Fi e, 和 es 之 间 最 多 有 两 个 短语 , WA, CPPH 表示 el 和 es 之 间 短 语 
路 径 以 及 中 心 词 , 否则 为 空 。 在 上 述 例 子 中 , CPPH 应 为 “NP( 姚 明 )-IP( 领 取 )-VP( 领 
取 )-PP( 与 )-NP( 叶 莉 )”。 


NP vp 
| Ss =e. 
NR NP PP ADVP VP 
姚明 NT P NP AD vy AS NP 


LO TCE L ee ee 


2007 与 NR 正式 领取 了 NN NN 


| | | 
mae 结婚 证 书 


图 9.14 例 3 中 第 二 个 子 句 对 应 的 短语 结构 树 


(6) 依存 关系 特征 
使 用 该 特征 之 前 , 需要 对 实体 所 在 的 句子 进行 依存 关系 分 析 , 图 9.15 是 上 面 例子 的 
依存 关系 图 。 


EMERSE 


姚明 " 2007 与 叶莉 正式 领取 了 结婚 证 书 
NR NT P NR AD VV AS NN NN 


图 9.15 例 3 中 第 二 个 子 句 对 应 的 依存 关系 树 


依存 关系 特征 的 使 用 方式 如 下 : 

BT1DW1 : el 的 实体 类 型 与 依存 词语 的 组 合 。 在 上 述 例子 中 BT1DW1 的 取 值 
为 “PERSON- 领 取 ”。 

H1DW1: el 的 中 心 词 与 依存 词语 的 组 合 。 在 上 述 例 子 中 五 .DW1 的 取 值 为 “ 姚 
明 - 领 取 ”。 
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ET2DW2 : es 的 实体 类 型 与 依存 词语 的 组 合 。 在 上 述 例子 中 ET2DW2 的 取 值 
为 “PERSON- 与 ”。 

H2DW2: es 的 中 心 词 与 依存 词语 的 组 合 。 在 上 述 例子 中 HDW 的 取 值 为 “ 叶 
4-5”. 

ET12SameNP :el 和 es 是 否 属于 同一 个 名 词 短语 的 布尔 变量 与 ET 12 的 组 合 。 在 
上 述 例子 中 ET12SameN P 的 取 值 为 “PERSON-PERSON-False”。 

ET12SamePP :el 和 es 是 否 属于 同一 个 介词 短语 的 布尔 变量 与 BT12 的 组 合 。 在 
上 述 例子 中 BT12SamePP 的 取 值 为 “PERSON-PERSON-False”。 

ET12SameVP :el 和 es 是 否 属于 同一 个 动词 短语 的 布尔 变量 与 BT12 的 组 合 。 在 
上 述 例子 中 ET12SameV P 的 取 值 为 “PERSON-PERSON-False”。 

(7) 短语 结构 树 特征 

短语 结构 树 特征 包括 以 下 两 种 : 

PTP : e, 和 es 之 间 的 短语 标签 路 径 (去 掉 重 复 的 标签 )。 如 图 9.14 所 示 , PTP 的 
取 值 为 “NR-NP-IP-VP-PP-NP-NR”。 

PTPH : e, 和 es 之 间 的 短语 标签 路 径 〈 去 掉 重 复 的 标签 ) 与 顶层 短语 的 中 心 词组 
Ao 在 图 9.14 中 ,PTPH 的 取 值 为 “NR-NP( 姚 明 )-IP( 领 取 )-VP( 领 取 )-PP( 与 )-NP( 叶 
莉 )-NR”。 

(8) 语义 资源 特征 

除了 词汇 和 各 种 句法 特征 以 外 , 很 多 语义 资源 也 可 以 用 来 加 强 特征 的 表示 。 国 家 名 
列表 和 人 名 之 间 关 系 的 触发 词 列表 是 常用 的 资源 。 国 家 名 列表 很 容易 收集 ,表示 国家 名 
与 人 名 之 间 关 系 的 触发 词 可 以 通过 如 下 两 种 途径 获得 : 一 种 是 从 WordNet 和 HowNet 
等 语义 词典 中 收集 , 另 一 种 是 从 训练 数据 中 获得 。 具体 的 特征 使 用 方式 如 下 : 

。 国家 名 列表 特征 

ET1Country : WR es 是 国家 名 , WA, ET1Country 表示 el 的 实体 类 型 ; 

CountryET2 : 如 果 el 是 国家 名 , WA, CountryET2 表示 es 的 实体 类 型 。 

© 人 之 间 关 系 触发 词 列表 特征 

ET1SC2 : 如 果 ea 触发 人 的 社会 关系 类 型 ,那么 BT1SC2 表示 el 的 实体 类 型 与 
ea 的 语义 类 别 的 组 合 ; 

SOCIET? : WR el 触发 人 的 社会 关系 类 型 , 那么 SC1ET2 表示 ez 的 实体 类 型 与 
el 的 语义 类 别 的 组 合 。 

对 于 一 对 实体 (el,e2) 及 其 所 在 的 句子 , 按照 上 述 方式 可 以 抽取 出 词汇 、 句法 和 语义 
等 各 种 离散 特征 , 然后 采用 支持 向 量 机 等 分 类 器 预测 (el, ez) 的 语义 关系 。 


2. 基于 核 函数 的 关系 分 类 方法 


显 式 离散 特征 的 粒度 通常 都 比较 小 , 很 难 捕捉 句法 结构 之 间 的 相似 度 。 在 很 多 情形 
下 ,如 果 测 试 句子 stest 的 句法 结构 与 训练 数据 中 某 个 句子 Strain 的 句法 结构 非常 相似 ， 
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那么 stest 中 的 实体 对 与 strain 中 的 实体 对 很 可 能 具有 相同 的 关系 。 因 此 , 如何 抽取 结构 
化 特征 , 并 有 效 计算 两 个 句法 结构 之 间 的 相似 度 , 成 为 关系 分 类 的 难题 之 一 。 


我 们 可 以 想到 一 种 直观 的 方法 : 抽取 一 棵 句法 树 中 的 所 有 子 树 作 为 特征 , 然后 对 比 
两 个 句子 的 句法 树 所 共享 子 树 的 程度 , 将 其 作为 两 个 句子 之 间 的 结构 相似 度 。 如 图 9.16 
所 示 ， 从 一 棵 含有 两 个 叶 节 点 的 短语 结构 树 中 可 以 列举 出 9 棵 子 树 。 从 训练 数据 中 的 
每 个 句子 对 应 的 句法 树 上 可 以 穷 举 出 所 有 的 子 树 , 假设 在 所 有 的 句子 上 共计 出 现 了 ns 
个 不 同 的 子 树 , 按照 出 现 顺 序 分 别 记 为 subti, subt2,… ,subtn。 屠 么 , 任意 句子 对 应 的 
句法 树 都 可 以 表示 成 一 个 n 维 的 向 量 , 其 中 第 i 个 元 素 表 示 subt; 在 句法 树 中 出 现 的 
次 数 。 如 果 用 hi (T) 表示 subt; 在 句法 树 了 中 的 出 现 次 数 ,那么 句法 树 了 可 以 表示 为 
A(T) = (hı (T), he (T), +-+ ,hn (IT))。 


Dope O PeO | ppt xp | 

LAN EZAN AS oa 

A i | i uP 下 人 | 
| 人 
P NP 1 与 NRU NR IINR) P) 
| | ! Poof di de dt 
D> "aij 叶莉 jA | 与 | 
与 Best Bl eee A Sg eis i a 
aes a ee 
a TRTRTA 
| | f | 
| P NP | P NP |! P NP | 
| biel |i 
| i p | 
| NR || 与 NR |! 与 | 


图 9.16 短语 结构 树 及 其 子 树 集 合 


按照 上 述 表 示 方 式 , 任意 两 个 句子 之 间 的 结构 相似 度 可 以 通过 计算 内 积 h (T3) + 
h(To) RE, 方法 简单 易 行 , 但 是 子 树 的 数目 n 非常 大 , 通常 与 树 中 节点 的 数目 成 指 
数 关系 ,而 且 在 句法 树 中 穷 举 出 所 有 的 子 树 也 并 不 是 一 件 容易 的 事情 。 因 此 ， 如 何 规 
避 这 种 方法 所 带 来 的 问题 成 为 研究 关注 的 焦点 。Collins and Duffy (2002) 提出 了 基于 
树 核 (tree kernel) PFR RZ IH h (Ty) -h (Ta) 的 方法 , 并 将 其 用 于 句法 分 析 等 任 
务 。 后 来 , 研究 者 们 将 该 方法 引入 到 了 关系 分 类 任务 , 提出 了 基于 短语 结构 树 的 核 方法 
[Zelenco et al., 2003]、 基 于 依存 句法 树 的 核 方法 [Culotta and Sorensen, 2004] 以 及 基于 
卷 积 核 的 方法 [Zhang et al., 2008] 等 。 


下 面 以 短语 结构 树 为 例 , 介绍 基于 树 核 的 内 积 (Ti) -h (To) 计算 方法 。 假设 用 
Ny 和 Na 分 别 表示 句法 树 Ty 和 家 中 的 节点 集合 。 如 果 句 子 对 应 的 句法 树 中 以 节点 
n 为 根 节点 的 子 树 匹配 子 树 集合 中 的 第 i 棵 子 树 , 则 I (n) = 1, AM G(n) = 0。 由 于 
hi (Ti) = 了》 Lm) hi (Ta) = 》 (no), 因此 , h(T,) +h (To) 可 以 通过 下 面 的 核 


miENi ma2EN2 


函数 K (Ti, To) 计算 : 
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K (Ty, Ta) = h (T1) +h (Ta) = X hi (Ta) ha (Ta) 


DY YO Mul) hi m) 


niENinzeN2 i 


SYS Can) (9.68) 


miENin2cNa2 


ll 


其 中 , C (n1, no) 一 Sok (nq) 五 (ng), 可 以 采用 以 下 递归 方法 求解 : 


(1) WET, 中 以 ma 为 根 节点 的 CFG 规则 和 中 以 ma 为 根 节点 的 CFG 规则 ! 不 
同 , 那么 C (ni1,n2) = 0; 

(2) WRT, 中 以 ni 为 根 节点 的 CFG 规则 和 了 中 以 no 为 根 节 点 的 CFG 规则 相 
同 , 而 且 my All ng 都 是 词性 节点 (叶子 节点 ( 词 ) 的 父 节点 ), 那么 C (n,n) = 1; 

(3) WAT, 中 以 ma 为 根 节点 的 CFG 规则 和 二 中 以 no 为 根 节点 的 CFG 规则 相 
同 , (A ny 和 ns 不 是 词性 节点 , 那么， 


ne(n1) 


C (m,n2)= > (1+ C (ch (m, 7) ch (m2, 5))) (9.69) 
j=l 
其 中 , ne (ny) 表示 ma 的 孩子 节点 数目 , ch (nj, j) 表示 ni (i= 1, 2) 的 第 j 个 孩子 节点 。 
HT, 中 以 ma 为 根 节点 的 CFG 规则 和 中 以 ma 为 根 节点 的 CFG 规则 相同 , 所 以 
nc (n1) = nc (nz)。[Collins and Duffy, 2002] 证 明 ， 上 述 递 归 计 算 方 法 与 通过 穷 举 所 有 子 
BUA Ay EL Beth Eh (Ty) +h (To) 是 等 价 的 , m HRZ K (Ty, To) 的 计算 复杂 度 仅 为 
O(|Ni| + |Nol)> 
上 述 递归 算法 适用 于 任意 的 树 结构 , 无 论 该 树 结构 是 整 棵 句法 树 还 是 某 个 子 树 片 
Pto 基于 这 个 特性 , 研究 者 们 提出 了 用 卷 积 核 函数 对 关系 分 类 进行 建 模 的 方法 。 该 方法 
的 基本 思路 是 : 将 整 棵 句法 树 按照 某 种 策略 选 出 若干 子 树 片段 ， 例如， 针 对 关系 分 类 任 
务 从 句法 树 结构 中 重点 选 出 实体 对 周围 的 子 树 片段 ， 每 个 子 树 片 段 都 可 以 按照 上 述 递归 
算法 进行 核 函数 计算 ， 最 后 将 所 有 核 函数 的 计算 结果 求 和 得 到 两 个 句子 之 间 的 结构 相似 
E. 与 树 核 方法 不 同 的 是 ， 由 于 在 两 棵 句法 树 的 树 片段 之 间 计 算 核 函 数 , 而 树 片段 之 间 
的 节点 数目 可 能 相差 很 大 , 如 五 中 的 树 片 段 含 有 10 个 节点 , Th 中 的 树 片段 仅仅 包含 3 
个 节点 , 因此 , 卷 积 树 核 函数 方法 需要 考虑 树 片段 节点 数目 的 差别 。 通常 采用 一 个 超 参 
数 入 (0 < 入 < 1) 调节 具有 不 同 节 点 数目 的 子 树 片段 ,于 是 将 上 述 递归 算法 中 第 (2) 步 
和 第 (3) 步 里 的 计算 公式 分 别 修改 为 : 


C(m,n2) =A (9.70) 
nc(n1) 
C(m,m2) =A J) (H+C (ch (m, j) ,ch (na,)))) (9.71) 


1CFG 规则 表示 上 下 文 无 关 规则 , 例如 VP 一 PPVP. 
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相应 地 ， 卷 积 核 函 数 定义 为 : 


h (Tr) +h (Ta) = 2 N° hy (Ti) + ha (To) (9.72) 
k 


Hep, sizer 为 第 k 个 子 树 片段 的 CFG 规则 数目 。 

TEZA h (Ti) -h (T2) 之 后 ， 可 以 采用 支持 向 量 机 或 其 他 分 类 器 模型 对 关系 分 
类 进行 建 模 。Zhang et al. (2008) 采用 该 方法 取得 了 比 基 于 显 式 离散 特征 方法 更 好 的 关 
系 分 类 效果 。 


9.5.2 ”基于 分 布 式 特征 的 关系 分 类 方法 


无 论 是 基于 显 式 离散 特征 的 关系 分 类 方法 ,还 是 基于 隐 式 特征 的 核 函 数 分 类 方法 ， 
都 存在 如 下 缺陷 : 一 方面 , 这 些 方法 依赖 于 词性 标注 和 句法 分 析 的 结果 ; 另 一 方面 , 离散 
特征 容易 产生 数据 稀疏 问题 , 并 且 不 能 捕捉 特征 之 间 的 潜在 语义 相似 性 。 为 了 克服 这 些 
问题 , 近年 来 很 多 研究 者 开始 尝试 基于 分 布 式 特征 表示 的 关系 分 类 方法 , 并 且 取 得 了 较 
好 的 分 类 效果 。 以 下 参阅 [Zeng et al., 2014] 中 介绍 的 基于 卷 积 神经 网 络 的 关系 分 类 方 
法 , 说 明基 于 分 布 式 表示 的 关系 分 类 方法 。 

该 方法 的 主要 思路 是 : 四 所 有 的 特征 都 采用 分 布 式 表示 ， 以 克服 数据 稀疏 和 语义 鸿 
沟 问题 @ 采 用 局 部 表示 捕捉 实体 对 周围 上 下 文 词汇 化 特征 ; @ 采 用 卷 积 神经 网 络 模型 
捕捉 实体 对 所 在 句子 的 全 局 信息 。 方 法 的 整体 框架 如 图 9.17 所 示 。 


关系 类 别 
概率 分 布 


局 部 和 全 局 | 


特征 表示 。 | | 词汇 化 特征 表示 
(Ee 

词 向 量 j £ 

句子 输入 [姚明 ] 2007 年 与 [叶莉 ] 正式 领取 了 结婚 证书 


图 9.17 基于 分 布 式 特征 表示 的 关系 分 类 方法 框架 


模型 的 输入 是 一 个 句子 (如 果 是 汉语 句子 , 经 过 分 词 处 理 ) s = (wy, w, ,wn)， 标 
注 了 待 辨别 关系 的 两 个 实体 e1 和 ez。 模型 首先 将 每 个 词语 wi 映射 为 词 向 量 mi E RY, 
形成 词 向 量 列表 义 = (£1, 22,… ,zn)。 然后 进入 两 个 核心 模块 : 学 习 词汇 化 分 布 式 特 
征 表示 Xiex E RY; @ 学 习 句 子 的 分 布 式 特征 表示 Xsen € 及 ee 。 拼 接 词汇 化 特征 表示 和 
旬 子 特征 表示 , 得 到 全 局 的 特征 表示 : Xena = [Xex Xs] € RR4++。 最 后 采用 线性 变 
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HAI softmax 函数 计算 关系 类 别 集 合 的 概率 分 布 , 其 中 最 大 概率 值 对 应 的 类 别 被 认定 为 
实体 对 (e1, €2) 之 间 的 关系 : 


O = W, x Xfnal (9.73) 
eO: 
nı 


p (li|s,€1,€2) = softmax (O;) = (9.74) 
OF 


k=1 


其 中 , 权重 矩阵 Wo € RIE), n 表示 关系 类 别 数目 ，1 表示 第 i 个 类 别 。 根据 本 书 
第 3 章 中 介绍 的 文本 分 布 式 表 示 方 法 , 词 向 量 可 以 通过 预 训练 和 精细 调 优 的 方法 学 习 。 
初始 词 向 量 可 由 预 训练 获得 ， 如 采用 Skip-gram 和 CBOW 等 方法 从 大 规模 无 标注 数据 
上 训练 得 到 。 精 细 调 优 (fine-tuning) 就 是 在 关系 分 类 任务 训练 集 上 优化 词 向 量 。 

以 下 分 别 介绍 词汇 化 分 布 式 特征 表示 Xix 和 句子 分 布 式 特征 表示 关 son 的 学 习 
方法 。 

1. 词汇 化 的 分 布 式 特征 表示 

词汇 化 特征 是 判断 实体 关系 类 别 的 关键 线索 , 也 是 基于 离散 特征 的 传统 关系 分 类 方 
法 的 实现 基础 。 词 汇 化 分 布 式 特征 表示 考虑 三 类 特征 : 实体 对 (e1,e2) 自身 ; @ 两 个 实 
体 的 上 下 文 词汇 ; @ 实 体 对 在 语义 知识 库 (如 英文 的 WordNet、 中 文 的 HowNet 等 ) 中 
的 上 位 词 。 由 于 这 三 类 特征 都 是 具体 的 词 , 因此 将 句子 中 每 个 词 所 对 应 的 词 向 量 进行 拼 
Be, 就 可 以 得 到 输入 句子 的 词汇 化 分 布 式 特征 表示 Xexe 


2. 句子 级 分 布 式 特征 表示 


于 词汇 化 特征 仅仅 考虑 实体 对 自身 及 其 局 部 的 上 下 文 信息 , 很 多 时 候 无 法 捕捉 辩 
别 实体 关系 的 关键 信息 。 例如， 图 9.17 中 的 关键 信息 “结婚 ”与 实体 对 “姚明 ”和 “ 叶 
莉 ” 距 离 较 远 ,很 难 由 局 部 信息 捕 提 到。 因此, 学 习 全 局 的 句子 分 布 式 特征 表示 是 一 种 理 
想 的 解决 方案 。 图 9.18 给 出 了 基于 卷 积 神经 网 络 的 句子 表示 学 习 框 架 。 本 书 第 3 章节 详 
细 介 绍 了 基于 卷 积 神经 网 络 的 句子 表示 方法 , 在 实体 关系 分 类 任务 中 利用 这 些 方法 的 关 
键 环 节 在 于 对 输入 信息 的 处 理 。 

在 实体 关系 分 类 任务 中 , 词汇 之 间 (尤其 是 普通 词汇 与 实体 之 间 ) 的 依赖 关系 是 非 
常 重要 的 特征 , 而 传统 的 神经 网 络 方法 并 不 能 捕捉 到 这 些 依赖 信息 。 因此, 通常 需要 对 
卷 积 神经 网 络 的 输入 做 适当 的 调整 。 这 里 的 方法 对 卷 积 神经 网 络 的 输入 进行 了 适应 性 
调整 。 词 向 量 WE 是 基本 特征 ， 由 固定 窗口 的 上 下 文 表 示 ， 如 第 i 个 词 wi 对 应 窗口 大 
小 为 3 的 WF 为 : [zi_i; zi; zir1]， 即 三 个 词语 对 应 词 向 量 的 拼接 。 另 外 也 将 词 在 句子 
中 的 位 置 PF) 作为 输入 特征 ， PF 是 该 词 与 两 个 实体 e1,e 相对 距离 的 向 量 表示 。 例 
如 ,图 9.17 中 “结婚 ”与 两 个 实体 “姚明 ”和 “叶莉 ”的 相对 距离 分 别 是 7 和 4。 在 模 
型 中 , 相对 距离 也 可 以 映射 到 连续 实数 向 量 空间 , 得 到 对 应 的 实数 向 量 。 假设 词 wi 与 
el 和 es 的 距离 分 别 为 di, dizo 那么 , PF 就 是 相对 距离 di 和 dig 所 对 应 向 量 的 拼接 表 
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示 : PF = [zaa; Lalo 可 以 将 词汇 特征 WF 与 位 置 特征 PF 的 拼接 将 作为 卷 积 神经 网 络 
的 输入 。 


句子 特征 表示 
非 线 性 变换 
| 最 大 池 化 


| 位 置 特征 PF 
Ceca d | 


图 9.18 ”基于 卷 积 神经 网 络 的 句子 特征 表示 示意 图 


Zeng et al. (2014) 研究 发 现 , 不 采用 任何 句法 、 语义 特 征 , 而 仅仅 使 用 词汇 和 句子 
的 分 布 式 特征 表示 , 也 可 以 取得 最 好 的 关系 分 类 性 能 , 而 且 位 置 特征 PF 起 到 了 非常 关 
键 的 作用 。 


9.5.3 ”基于 远程 监督 的 关系 分 类 方法 


上 述 基 于 离散 特征 的 关系 分 类 方法 和 基于 分 布 式 特征 的 关系 分 类 方法 都 是 有 监督 的 
模型 ， 这 种 模型 一 方面 需要 人 工 标注 的 实体 关系 语 料 , 耗 时 耗 力 ， 且 通常 样本 规模 有 限 ; 
另 一 方面 有 限 的 标注 语 料 都 是 某 些 特定 领域 的 , 一 旦 跨 领 域 时 分 类 性 能 将 显著 下 降 。 
于 是 , 研究 人 员 提 出 了 一 种 基于 远程 监督 (distant supervision) 的 关系 分 类 方法 , 该 方 
法 利用 一 种 算法 从 海量 无 标注 数据 中 自动 获取 置信 和 度 较 高 的 典型 样本 ,并 将 这 些 样本 视 
为 标注 数据 , 然后 采用 有 监督 的 学 习 方 法 优化 实体 关系 分 类 模型 [Mintz et al., 2009]。 

已 有 的 开放 语义 知识 库 (如 Freebase、HowNet 等 ) 是 远程 监督 方法 采用 的 重要 
资源 。 语义 知识 库 中 提供 了 大 量 实体 关系 示例 (et ez, relation), wW CWE, Mr Fil, Be 
偶 )。Mintz 等 人 (2009) 从 Freebase 中 清理 出 了 连接 94 万 英文 实体 的 180 万 个 实体 关 
系 实例 ,其 中 包含 102 种 关系 。 远 程 监督 的 目标 就 是 利用 这 些 实体 关系 实例 作为 种 子 ， 
对 无 标注 数据 进行 自动 标注 。 

远程 监督 方法 的 基本 思想 是 : 对 于 语义 知识 库 中 的 一 个 实体 关系 例子 (el,e>， 
relation)， 如 果 海 量 无 标注 数据 中 存在 某 个 句子 s,s 中 恰好 包含 实体 对 (e1,e2), 那么 句 
T s'e, 与 es 的 关系 很 可 能 也 是 relation， 因 此 ， 可 以 从 s 中 抽取 出 针对 关系 relation 
的 若干 特征 。 例 如 ， 对 于 实体 关系 实例 (姚明 , 叶莉 , 配偶 ), 实体 对 (姚明 , 叶莉 ) 在 下 
面 无 标注 的 句子 中 出 现 了 : 


姚明 携 妻 子叶 痢 亮相 央视 春晚 。 叶莉 顺利 生产 ， 姚 明 喜 获 千 金正 式 当 爸 。 


那么 , 远程 监督 模型 假设 该 句子 中 两 个 实体 之 间 就 是 “配偶 ”关系 , 从 这 些 名 子 中 可 
以 抽取 出 词汇 化 特征 和 句法 等 相关 信息 用 来 丰富 原始 模型 中 所 采用 的 特征 。 
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为 了 尽 可 能 地 降低 噪声 的 影响 , 远程 监督 模型 采用 了 一 种 特征 合并 技术 , 针对 一 个 
实体 关系 实例 (e1, ez, relation), 如 果 无 标注 数据 中 存在 n 个 句子 都 包含 相同 的 实体 对 
(ei,e2)， 那么 将 从 这 n 个 句子 中 抽取 出 来 的 特征 向 量 进行 合并 , 合并 后 的 向 量 作为 一 
个 特征 向 量 。 例 如 ， 从 句子 “姚明 和 叶莉 都 是 中 国 著名 篮球 运动 员 .” 中 抽取 出 的 特征 
与 “配偶 ”无 关 , 如 果 单 独 作为 特征 使 用 的 话 将 成 为 噪声 ,而 与 上 面 句子 中 获取 的 特征 进 
行 合并 , 将 最 大 程度 地 降低 无 关 特 征 的 影响 。 

在 Mintz 等 人 (2009) 的 实验 中 , 这 种 简单 的 方法 获得 了 精度 为 67.6% 的 关系 分 类 
性 能 。 


9.5.4 ”关系 分 类 性 能 评价 
对 于 关系 分 类 方法 的 评价 一 般 主要 考察 准确 率 (precision), HER (recall) #1 Fy 

{Ho 针对 一 个 测试 集 , 假设 人 工 标注 的 实体 关系 集合 为 R, 分 类 器 自动 识别 出 来 的 实体 

关系 集合 为 O, 那么 precision, recall All Fy 的 计算 公式 分 别 为 : 

JONR] 


precision = iO] x 100% (9.75) 
recall = a x 100% (9.76) 


F= 2 x precision x recall 

1 — precision + recall 
其 中 , |O| 和 |R| 分 别 表示 系统 输出 和 参考 答案 的 实体 关系 数目 , 而 ON R| 表示 系统 输 
出 与 参考 答案 匹配 的 实体 关系 数目 。 


(9.77) 
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一 个 事件 包括 事件 类 型 、 参 与 者 、 时 间 、 地 点 、 原因 等 诸多 元 素 。 不同 于 目标 明确 、 
结构 简单 的 实体 识别 和 关系 分 类 , 事件 抽取 是 一 件 更 加 复杂 的 任务 , 不 同类 型 的 事件 对 
应 不 同 的 组 织 结构 。 例 如 , “公司 收购 ”这 一 事件 包含 “收购 者 ”“ 被 收购 者 ”“ 人 金额 ” 等， 
而 “离职 ”事件 包含 “离职 者 ”“ 公 司机 构 ”“ 职 位 ”“ 离 职 时 间 ” 等 。 事件 之 间 的 差异 性 使 
得 在 开放 域 中 进行 任意 事件 的 抽取 成 为 一 个 极 具 挑 战 性 的 难题 。 本 节 重 点 关注 特定 领域 
的 事件 抽取 任务 。 


9.6.1 ”事件 描述 模板 


在 MUC、ACE 和 TAC 组 织 的 事件 抽取 任务 评测 中 , 对 事件 的 定义 和 待 抽取 的 事 
件 类 型 略 有 不 同 ， 以 下 采用 ACE 2005 中 的 事件 标注 标准 。ACE 2005 共计 标注 了 8 个 
大 类 、33 个 子 类 事件 ， 要 求 参 评 者 利用 给 定 的 标注 语 料 训练 模型 ， 从 指定 的 测试 数据 中 
发 现 特定 类 型 的 事件 , 并 且 识 别 出 与 事件 相关 的 信息 填 入 到 预 设 的 事件 模板 中 。 每 个 事 
件 类 型 对 应 一 个 模板 。 表 9.5 列 出 了 ACE 2005 标注 的 事件 类 型 。 
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表 9.5 ACE 2005 标注 的 事件 类 型 


事件 类 型 (大 类 ) 事件 类 型 (FR) 

Life (生活 ) Be-Born (出 生 ), Marry (结婚 )，Divorce (离婚 ), Injure (受伤 )， 
Die (去 世 ) 

Movement (转移 ) Transport (运输 ) 

Transaction (交易 ) Transfer-Ownership (所 有 权 和 转移)，Transfer-Money (资金 转移 ) 

Business (商业 ) Start-Org (创办 )，Merge-Org (合并 )，Declare-Bankruptcy (破产 )， 
End-Org (倒闭 ) 

Conflict (冲突 ) Attack (ti), Demonstrate (示威 ) 

Contact (联系 ) Meet (会 见 ), Phone-Write (电话 书信 ) 

Personnel (人 员 变 动 ) ”Start-Position( 履 职 ), End-Position (离职 ), Nominate (提名 )， 
Elect (选举 ) 

Justice (司法 ) Arrest-Jail (拘捕 )，Release-Parole (释放 )，Trial-Hearing (审判 )， 


Charge-Indict (指控 ), Sue (起 诉 )，Convict GEJE), Sentence (量刑 )， 
Fine (罚款 )，Execute (处 决 ), Extradite (引渡 )，Acquit (宣告 无 罪 )， 
Appeal (EVF), Pardon (赦免 ) 

事件 通常 由 一 个 句子 描述 , 句子 中 一 定 存 在 一 个 关键 词 , 如 下 面 例 4 中 的 “出 生 ”、 
例 5 中 的 “离职 ”等 , 能 够 清晰 地 表明 某 类 事件 的 发 生 , 这 类 词语 称 为 触发 词 (trigger) 。 

例 4: [ 李 教 ][1935 年 ] 出 生 于 [黑龙 江 哈 尔 滨 市 ]。 

例 5: [3 A 22 A], [百度 首席 科学 家 吴 恩 达 ] 在 Twitter 发 文宣 布 离职 [百度 ]。 

触发 词 是 决定 事件 类 型 的 核心 要 素 , 因此 是 事件 抽取 的 关键 。 事件 抽取 的 主要 任务 
就 是 在 已 知事 件 类 型 的 前 提 下 ， 从 句子 中 抽取 出 事件 的 各 个 元 素 ,， 并 判别 事件 元 素 的 角 
色 。 事 件 元 素 的 角色 由 两 部 分 组 成 : 事件 参与 者 和 事件 属性 。 

事件 参与 者 是 事件 的 必要 成 分 , 通常 是 命名 实体 中 的 人 名 和 组 织 机 构 名 。 事 件 属 
性 (event attribute) 包括 两 类 : 通用 事件 属性 和 事件 相关 属性 。 由 于 事件 发 生 的 地 点 、 
时 间 和 时 长 几乎 在 所 有 的 事件 中 都 会 出 现 , 因此 这 类 属性 称 为 通用 事件 属性 。 事件 相关 
属性 由 具体 的 事件 类 型 决定 , 如 “定罪 ”事件 中 的 “罪名 ”属性 ,“ 履 职 ” 事 件 中 的 “职位 ” 
属性 , 都 是 事件 相关 的 属性 。 如 果 将 每 个 事件 属性 视 为 一 种 角色 ,在 ACE 2005 的 标注 
体系 中 一 共有 35 个 角色 。 

每 种 类 型 的 事件 可 以 通过 一 个 模板 表示 , 模板 可 以 是 通用 模板 , 也 可 以 是 事件 类 型 
相关 的 特定 模板 。 通 用 模板 包含 36 个 槽 位 ， 其 中 一 个 槽 位 需要 填充 触发 词 ， 其 余 模 位 对 
应 35 个 角色 。 由 于 不 同类 型 的 事件 对 应 的 事件 角色 差异 较 大 , 每 个 事件 类 型 仅仅 触发 通 
用 模板 中 36 个 槽 位 的 少数 几 个 ,因此 在 已 知事 件 类 型 的 前 提 下 可 以 采用 特定 模板 。 

K 9.6 和 表 9.7 分 别 是 针对 “出 生 ” 和 “离职 ”两 个 事件 给 出 的 特定 模板 。 其 余 事件 
类 型 对 应 的 特定 模板 可 参考 [LDC, 2005]。 


表 9.6 “出 生 ” 事件 对 应 的 模板 


Trigger (触发 词 ) 出 生 
Person-Arg (人 名 ) FU 
Time-Arg (时 间 ) 1935 年 


Place-Arg (地 点 ) 黑龙 江 哈 尔 滨 市 
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表 9.7 “离职 ”事件 对 应 的 模板 


Trigger (触发 词 ) 离职 
Person-Arg (人 名 ) 吴 恩 达 
Entity-Arg (公司 机 构 ) 百度 
Position-Arg (职位 ) 首席 科学 家 
Time-Arg (时 间 ) 3 月 2 日 


确定 了 描述 事件 的 模板 之 后 ,事件 抽取 任务 就 转化 为 模板 填充 任务 ， 即 发 现 事 件 触 
发 词 、 识 别 事件 元 素 及 对 应 的 角色 ,并 将 其 填充 到 模板 对 应 的 槽 位 中 。 除 了 事件 类 型 和 
事件 元 素 之 外 , 事件 的 整体 特性 也 经 常 被 作为 信息 抽取 的 对 象 。 所 谓 的 事件 整体 特性 主 
要 包括 如 下 4 类 : Polarity ( 极 性 , WUE “EM” R AM”), Modality ( 语 态 取 值 为 “ 确 
定 ” 或 “未 知 ”)，Genericity CZW, 取 值 为 “具体 ”或 “普遍 ”), 以 及 Tense (INAS, 取 值 
为 “过 去 ”、“ 现 在 ”、“ 将 来 ”或 “未 知 ”)。 


9.6.2 ”事件 抽取 方法 
1. 管道 式 的 事件 抽取 方法 


Ahn (2006) 提出 了 一 种 管道 式 的 事件 抽取 方法 (pipeline method) ， 该 方法 将 事件 
抽取 任务 按 顺 序 分 解 为 4 个 子 任务 , 依次 为 : 四 触发 词 识别 Ctrigger detection)， 即 识 
别 事件 类 型 ; @ 事 件 元 素 抽取 与 角色 分 类 (argument classification); @ 事 件 整体 特性 判 
别 Cattribute classification); @ 上 报 预 判 (reportability classification). Ahn 将 每 一 个 
子 任务 都 视 为 一 个 分 类 问题 , 为 每 一 个 子 任务 设计 相应 的 特征 , 然后 采用 相同 的 分 类 器 ， 
如 最 大 信 模 型 和 支持 向 量 机 模型 等 进行 训练 ， 获得 最 终 的 分 类 结果 。 

与 后 两 个 子 任务 相 比 ,前 两 个 子 任务 更 为 重要 ,所 以 更 受 关注 。 以 下 重点 介绍 触发 
词 识别 和 事件 元 素 抽取 这 两 个 子 任务 。 在 Ahn 给 出 的 管道 式 方法 中 , 分 类 器 的 使 用 没有 
特别 之 处 , 主要 创新 在 于 其 特征 选择 方法 。 因 此， 下 面 重点 介绍 Ahn 的 方法 中 用 于 触发 
词 和 事件 元 素 识别 及 分 类 所 采用 的 特征 。 

事件 类 型 偶尔 会 由 多 个 词 (或 短语 ) 共同 触发 , 但 是 分 析 发 现 , 超过 95% 的 触发 词 
都 是 单个 词 , 因此 触发 词 的 识别 问题 可 简单 视 为 词 的 分 类 问题 。 同时 , 触发 词 往往 只 是 
动词 、 部 分 名 词 和 代词 等 , 所 以 , 触发 词 的 识别 问题 又 进一步 简化 为 特定 词性 的 多 分 类 
问题 (一 共 34 个 类 , 其 中 33 类 是 事件 类 型 , 还 有 一 个 “None 类 ”表明 不 是 任何 事件 类 
型 的 触发 词 )。 例如 , ZEB 4 H, “AEH” “1935 年 ” “出生”“ 黑 龙 江 哈 尔 滨 市 ”都 可 作为 
触发 词 候选 , 理想 的 分 类 模型 能 够 将 “李敖 ”“1935 E” “黑龙 江 哈 尔 滨 市 ”判别 为 None 
类 , 而 将 “出 生 ” 正 确 判 别 为 “出 生 ”(Be-Born) 类 。 为 了 训练 高 质量 的 分 类 器 ， Ahn Be 
计 了 如 下 的 特征 : 

(1) 词汇 化 特征 : 包括 词汇 本 身 、 词 性 以 及 词汇 在 短语 结构 句法 树 中 的 深度 信息 ; 

(2) 语义 词典 特征 : 针对 英文 文本 中 触发 词 的 识别 , 借助 WordNet 判断 ,如 果 待 识 
别 词 属于 动词 、 名 词 、 形 容 词 和 副词 之 一 , 并且 在 WordNet 中 有 对 应 的 义 项 , 则 将 第 一 
个 义 项 作为 特征 值 。 
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(3) 上 下 文 词汇 信息 : 包括 待 识别 词 左右 3 个 词 以 及 相关 词性 ; 

(4) 依存 特征 : 如 果 待 识别 词 是 某 个 依存 关系 中 的 中 心 词 ， 那 么 该 依存 关系 、 依 存 
词 、 词 性 以 及 实体 类 别 都 将 作为 特征 。 

还 有 一些 实体 关系 也 可 以 作为 特征 。 依据 上 述 特征 ,可 以 从 ACE 标注 的 数据 中 抽 
取出 训练 实例 , 用 于 优化 分 类 器 模型 。 通 过 分 析 ACE 标注 数据 可 以 发 现 , 触发 词 在 所 有 
词 中 所 占 的 比例 不 到 3%， 也 就 是 说 , 绝 大 多 数 词 都 不 是 触发 词 ,因此 34 类 的 多 分 类 问 
题 面临 严重 的 数据 不 平衡 问题 。 为 了 缓解 这 一 问题 ,可 以 采用 两 步 策略 ; 第 一 步 是 训练 
一 个 二 类 分 类 器 ,过 滤 掉 非 触发 词 ; 第 二 步 是 训练 一 个 33 类 的 多 分 类 器 ,判别 触发 词 属 
于 哪 一 种 事件 类 型 。 实验 证 明 ， 两 步 策 略 有 助 于 获得 更 优 的 性 能 。 

在 事件 元 素 的 抽取 中 , 通常 假设 命名 实体 、 时 间 和 专 有 名 词 等 候选 实体 已 经 给 定 (可 
利用 本 章 前 面 介绍 的 实体 识别 和 消 歧 方 法 实现 )， 例 如 入 名 “ 李 赦 ”、 时 间 “1935 年 ”和 
地 点 “黑龙 江 哈尔滨 市 ” 已 经 给 定 。 事 件 元 素 抽取 要 完成 的 任务 实际 上 就 是 对 每 一 个 候 
选 实体 进行 角色 分 类 。 由 于 ACE 标注 数据 中 有 35 个 事件 角色 , 加 上 一 个 None 角色 
一 共 36 个 事件 角色 ， 因 此 ,事件 元 素 抽取 任务 可 简化 为 一 个 36 类 候选 实体 的 多 分 类 
问题 。 类 似 于 触发 词 识别 任务 ,事件 元 素 抽取 任务 也 面临 严重 的 数据 不 平衡 问题 : 超过 
70% 的 候选 实体 不 属于 任何 角色 , 即 None 角色 占据 70% 以 上 。 此 外 ,还 需要 注意 另 一 个 
现象 , 每 个 事件 类 型 涉及 的 角色 远 少 于 36 个 , 如 “出 生 ” 事件 仅 包括 3 个 角色 ,“ 离 职 ” 
事件 仅 包括 4 个 角色 。 所 以 ,除了 形式 化 为 36 类 的 多 分 类 问题 以 外 , 事件 元 素 抽取 任务 
也 可 针对 具体 的 事件 类 型 进行 多 分 类 建 模 , 如 在 触发 词 “ 出 生 ” 被 正确 地 识别 出 来 以 后 ， 
该 事件 的 类 型 就 确定 了 , 之 后 便 可 以 对 候选 实体 “李敖 ”、“1935 年 ”和 “黑龙 江 哈尔滨 
市 ”进行 4 分 类 (人物 、 时 间 、 地 点 和 None)。 

无 论 是 36 类 的 多 分 类 模型 ,还 是 针对 事件 类 型 的 多 分 类 模型 , 特征 设计 仍 是 核 
心 。Ahn 采用 的 特征 包括 : 

(1) 事件 触发 词 与 事件 类 型 特征 : 触发 词 本 身 、 触 发 词 的 词性 、 触 发 词 在 短语 结构 
句法 树 中 的 深度 ， 以 及 事件 类 型 

(2) 实体 中 心 词 与 限定 词 特征 : 实体 中 心 词 、 词 性 及 其 在 句法 树 中 的 深度 ， 如 果实 
体 有 限定 词 ， 则 将 其 作为 特征 ; 

(3) 实体 与 实体 指称 的 类 型 特征 : 实体 指称 类 型 包括 人 名 、 代 词 与 其 他 名 词 , 实体 
类 型 包括 人 名 、 地名、 机 构 名 、 时 间 和 地 点 等 ; 

(4) 实体 中 心 词 与 触发 词 之 间 的 依存 路 径 特征 : 依存 路 径 由 词语 、 词性 与 依存 关系 
的 路 径 组 成 。 

在 ACE 2005 数据 集 上 的 实验 表明 ,针对 事件 类 型 的 多 分 类 模型 能 够 取得 较 好 的 分 
类 结果 。 


2. 联合 事件 抽取 模型 


管道 式 的 事件 抽取 方法 存在 无 法 克服 的 错误 传递 问题 : 前 续 模 块 的 错误 将 不 可 如 
免 地 传递 到 后 续 模块 中 , 并 不 断 放 大 , 而 后 续 模 块 也 不 能 影响 前 续 模块 的 决策 过 程 。 例 
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如 ， 如 果 触 发 词 识别 产生 错误 ,那么 后 续 的 事件 元 素 识别 和 角色 分 类 都 不 可 能 正确 , 而 
且 事 件 元 素 抽取 过 程 中 的 信息 也 无 法 用 于 矫正 触发 词 识别 中 的 问题 。 实际 上 , 触发 词 与 
事件 元 素 在 很 多 情况 下 是 相互 影响 的 。 在 例 6 中 , “失去 ”是 “去世” 的 触发 词 , 而 在 例 7 
中 “失去 ”是 “破产 ”的 触发 词 。 在 例 6 中 ,如 果 模型 在 “袭击 ”事件 判别 中 将 “大 兵 瑞 
恩 ” 正 确 识别 为 “目标 ” 角色 , 那么 该 结果 也 能 够 帮助 判别 句子 中 的 “失去 ”是 “去 世 ” 事 
件 的 触发 词 。 类 似 地 ,如 果 将 例 7 中 的 “天 鸿 公司 ”正确 识别 为 机 构 名 称 , 那么 也 能 够 帮 
助 判别 “失去 ”是 “破产 ”的 触发 词 。 

例 6: [恐怖 分 子 ] 炸 弹 效 击 [美国 大 使 馆 ]， 让 美国 失去 了 [KARE]. 

例 7: 两 年 前 的 生意 失败 ， 让 [陈兵 ] 失 去 了 原本 价值 数 亿美 元 的 [天 鸿 公司 ]。 

此 外 , 同一 个 句子 中 可 能 存在 多 个 事件 , 如 在 例 6 中 , 同时 存在 “袭击 ”和 “去 世 ” 
两 个 事件 。 管 道 式 的 抽取 方法 无 法 捕捉 不 同事 件 之 间 触 发 词 和 事件 元 素 之 间 的 依赖 关 
Fo 图 9.19 给 出 了 例 6 中 两 个 事件 正确 的 触发 词 、 事 件 元 素 及 其 角色 。 管道 式 的 方法 对 
这 两 个 事件 进行 独立 抽取 ,很 可 能 无 法 将 “大 兵 瑞 恩 ”识别 为 “袭击 ”事件 的 目标 。 理想 
情况 下 ,应 该 充分 利用 全 局 信息 将 “去世” 事件 的 受害 者 角色 “大 兵 瑞 恩 ”作为 目标 角色 
传递 给 “袭击 ” 事件 。 


i TA ik - ` 

Awe K Ba ”美国 大 使 馆 ， 让 美国 ”失去 了 ”大 兵 瑞 思 
| | 
it Kitt 


图 9.19 “Rh” A SSH” BES “ec ae” AA TR” SSE 


为 了 解决 上 述 问题 ，[Li et al., 2013b] 提出 了 一 种 触发 词 与 事件 元 素 的 联合 标注 算 
法 , 将 事件 抽取 任务 视 为 一 个 结构 学 习 问题 ， 采 用 结构 感知 器 模型 同时 预测 触发 词 与 事 
件 元 素 ， 并 在 整个 句子 上 寻找 一 组 最 优 解 。 这 种 方法 不 仅 能 够 捕捉 不 同事 件 之 间 触 发 词 和 
事件 元 素 之 间 的 依赖 关系 , 而 且 可 以 充分 利用 全 局 信息 。 以 下 介绍 这 种 联合 标注 算法 。 

首先 , 对 联合 标注 模型 进行 形式 化 。 触 发 词 的 标记 集合 用 LU {o} 表示 , 其 中 工 包 
含 33 种 事件 类 型 ，G 表示 待 识别 词 不 是 触发 词 。 RU {g} 表示 事件 元 素 的 角色 集合 , R 
包含 35 个 事件 角色 ，G 表示 待 标注 的 候选 事件 元 素 不 属于 当前 触发 词 的 角色 集合 。 

算法 的 输入 是 由 n 个 词 或 短语 、 标点 组 成 的 句子 > = (21,22, ,zn) 以 及 候选 事件 
元 素 列表 e= {ex}. WHF 6 中 的 句子 , n = 10， {ex}, ={ 恐怖 分 子 ， 炸弹 , 美 
国 大 使 馆 ， 大 兵 瑞 恩 }。 因 此, 输入 可 以 用 £= (zh za , En), {ek} 表示 。 

算法 的 输出 y 由 下 面 的 式 子 表示 : 


y= (tı, (G11 ym) stn; (@nis*** nrn)) (9.78) 


其 中 , ti © LU {8g} 是 第 i 个 词 或 短语 zi 的 触发 词 标记 , ay E€ RU {@} 表示 事件 元 素 ej 
属于 事件 类 型 t: 的 角色 标记 。 以 最 简单 的 句子 “马云 创立 阿里 巴巴 ”为 例 ,输入 和 标准 
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输出 分 别 为 : 
a= (( 马 云 , 创立 , 阿里 巴巴 ) , {马云 , 阿里 巴巴 }) (9.79) 
y = (Ø, (Ø, Ø) ,Start-Org, (Agent, Org) , Ø, (D, 2)) (9.80) 


其 中 , n = 3, m = 2, fe}, ={ 马 云 , 阿里 巴巴 }。 在 输出 结果 y 中 ，Start_Org 表示 
第 二 个 词 “ 创 立 ” 是 触发 词 , 属于 “创办 (Start_Org)” 事 件 ， Agent 和 Org 分 别 表示 “ 马 
云 ” 和 “阿里 巴巴 ”分 别 是 “创办 (Start-Org)” 事 件 的 创始 人 和 所 创办 的 公司 。 联合 事 件 
抽取 算法 的 目标 就 是 对 于 任意 x, 准确 地 输出 标注 结果 y, 该 问题 可 通过 以 下 目标 函数 进 
行 求解 : 

y = argmax W - F (x,y') (9.81) 

y'EY(z) 

其 中 , F (x,y!) 表示 特征 向 量 ， W 是 对 应 的 特征 权重 。 特征 向 量 可 以 采用 管道 式 的 事 
件 抽取 的 特征 ,也 可 以 设计 一 些 全 局 特征 。 参数 W 可 以 基于 感知 器 模型 (perceptron 
model) 通过 一 种 在 线 更 新 (online update) 的 算法 进行 优化 。 如果 > 是 x 上 正确 的 人 工 
标注 结果 , y 是 模型 预测 的 错误 结果 , 那么 , W 可 以 通过 以 下 公式 更 新 : 


W =W +F (z,2)— F (x,y) (9.82) 


详细 的 训练 算法 见 算法 9.3[Huang et al., 2012]. 


MA: 训练 数据 集 D = {20,20}, BARRAT 
输出 : 特征 权重 参数 W 

1. 初始 化 : W =0 

2. for t — 1---T do 


3. foreach (z,z) € D do > 对 每 个 训练 实例 在 线 更 新 
4 y = beamSearch(z, z, W ) 

5. if y Æ z then 

6 W — W +F (zx,kzijy) — F (x,y) > 参数 更 新 


算法 9.3 ”联合 事件 抽取 中 的 参数 训练 算法 


对 于 数据 集 D 中 的 每 一 个 训练 实例 (z,z), 利用 柱 搜 索 CheamSearch) 算法 预测 a 
对 应 的 标注 结果 y。 如 果 预 测 的 结果 y 与 真实 结果 z 不 一 致 , 则 采用 感知 器 算法 更 新 
参数 三 。 该 训练 过 程 可 以 在 数据 集 D 上 遍历 了 次 。 柱 搜索 算法 是 其 中 的 核心 ， 见 算 
法 9.4。 

柱 搜索 算法 开始 时 设置 一 个 空 栈 B, 然后 自 左 往 右 考察 输入 句子 的 每 一 个 位 置 ( 算 
法 第 2 行 )。 对 于 待 预测 的 词语 x;, 枚 举 其 属于 触发 词 的 可 能 性 , 并 保留 最 佳 的 K 个 候 
选 (算法 第 3~4 行 )。 如 果 是 参数 训练 过 程 ， 则 需要 判断 到 目前 为 止 模型 的 输出 是 否 与 
真实 的 标注 结果 相 匹配 ,如 果 不 匹配 , 则 提前 退出 (算法 第 5~6 行 )。 之后, 对 候选 事件 
元 素 的 角色 进行 分 类 (算法 第 7~13 行 ): 对 于 每 一 个 候选 事件 元 素 eo 考察 栈 B 中 的 
每 一 个 候选 标注 结果 (算法 第 9 行 ), WR zi 是 触发 词 , 则 将 所 有 可 能 的 事件 角色 集合 
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放 入 到 缓冲 区 buf 中 (算法 第 10~12 行 )。 根 据 打 分 保留 最 佳 的 K 个 候选 (算法 第 13 
行 )。 算 法 第 14~15 行 与 第 5~6 行 的 功能 类 似 。 和 迭代 执行 该 过 程 , 直至 句子 结束 。 如 果 
是 测试 阶段 ， 则 输出 最 佳 预测 结果 yo 


输入 : 句子 与 候选 事件 元 素 z = ((ziza…… ,ZTn), {ek}R1); 若是 训练 阶段 则 包括 正确 标注 结 
果 z; beamSize HEA K, 事件 类 型 标记 集合 LU {oO}, 事件 元 素 角 色 集 合 忆 U{GT} 

输出 : z 的 最 优 预 测序 列 

1. 设置 柱 存储 空间 , B 一 fe] > 初始 化 为 空 

2. fori—1---ndo 

3. buf 一 {yOlly E€ Ble LU{O}} > 进行 触发 词 预 测 

4 B — Kbest(buf) 

5 if z1:t; ¢ B then 

6. return B[0] > 早期 更 新 算法 

7. for ex € {ex}fi1 do > 进行 事件 元 素 预 测 

8 

9 


buf 一 Ø 
fory € B do 
10. buf — buf U {y' 08} 
11. if yj, AS then pri 是 触发 词 
12. buf — buf U {y'Or|r € R} = 考察 所 有 角色 类 型 


13. B — Kbest(buf) 
14. if 21:0, £ B then 
15. return B[0] 
16. return B[0] 


算法 9.4 训练 测试 中 的 柱 搜索 算法 


3. 基于 分 布 式 表示 的 事件 抽取 模型 


联合 事件 抽取 模型 不 仅 考虑 触发 词 识别 与 事件 角色 分 类 之 间 互 为 影响 的 关系 , 而 且 
充分 挖掘 多 个 事件 之 间 的 依赖 信息 。 但 是 ,正如 所 有 基于 离散 符号 特征 的 方法 ， 联 合 事 
件 抽取 模型 同样 无 法 捕捉 词汇 之 间 的 语义 相似 性 ， 难 以 利用 句子 层面 的 深层 特征 ， 因 此 
事件 抽取 的 性 能 受到 制约 。 

近年 来 , 基于 分 布 式 特征 表示 的 方法 被 不 断 地 尝试 用 于 事件 抽取 任务 中 , 并 且 与 基 
于 离散 特征 的 方法 相 比 , 使 性 能 得 到 了 提升 。 这 类 方法 的 主要 思想 是 , 利用 分 布 式 连续 
向 量 表示 词 语 ,以 克服 数据 稀疏 问题 , 并 捕捉 词汇 之 间 的 语义 相似 性 。 在 此 基础 上 学 习 
层次 更 深 、 范围 更 广 的 特征 , 最 终 利用 分 类 算法 完成 触发 词 识别 和 事件 角色 分 类 任务 。 

下 面 以 [Chen et al., 2015b] 的 工作 为 例 介绍 分 布 式 特征 表示 在 事件 抽取 任务 中 的 应 
用 方法 。 从 机 器 学 习 的 角度 来 说 , 神经 网 络 模型 并 没有 从 方法 论 上 改变 事件 抽取 方法 ， 
仍然 是 将 该 任务 分 解 为 触发 词 识别 和 事件 角色 分 类 。 而 且 , 这 两 个 级 联 的 子 任务 都 被 视 
为 一 个 多 分 类 问题 , 因此 在 神经 网 络 框 架 内 可 以 采用 同一 套 模 型 进行 处 理 。 

相对 于 触发 词 识别 任务 , 事件 角色 分 类 问题 更 为 复杂 , 所 以 下 面 重点 介绍 分 布 式 特 
征 表示 在 事件 角色 分 类 任务 中 的 应 用 方法 , 然后 讨论 针对 触发 词 识别 任务 需要 进行 的 模 
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型 改进 。 
以 句子 表示 的 事件 为 例 , 事件 角色 分 类 就 是 在 确定 触发 词 t 之 后 , 判断 句子 中 每 一 
个 候选 事件 元 素 e 是 否 是 触发 词 t 的 菜 个 角色 ,并 判断 属于 哪个 事件 角色 。 以 判断 例 6 
给 出 的 句子 中 候选 事件 元 素 “炸弹” 与 触发 词 “ 失 去 ”之 间 的 关系 为 目标 , 图 9.20 给 出 
了 基于 分 布 式 特征 表示 的 事件 角色 分 类 模型 示意 图 。 
ARENT (a) PRC RE A es PERR 
/ io o \ 


\ 句子 特征 输入 “| 卷 积 操作 | 动态 池 化 ) 
Y 
O) 句子 特征 的 分 布 式 表示 


图 9.20 ”基于 分 布 式 特征 表示 的 角色 分 类 模型 


在 图 9.20 F, 模型 分 为 三 部 分 、 四 个 主要 模块 : 第 一 部 分 是 词 向 量 表 示 , 即 学 习 每 
个 词语 的 分 布 式 连续 向 量 表 示 ; 第 二 部 分 是 词汇 组 合 特征 与 句子 级 特征 的 分 布 式 特征 学 
习 , 包括 (a) 词汇 特征 的 分 布 式 表示 学习 词 汇 级 的 各 种 特征 组 合 ); Cb) 句子 特征 的 分 
布 式 表示 (挖掘 句子 级 的 深层 特征 表示 ); 第 三 部 分 是 角色 分 类 模型 , 即 在 表示 学 习 的 基 
础 上 进行 角色 分 类 。 

第 一 部 分 的 词 向 量 表示 学 习 是 基础 。 由 于 事件 抽取 的 训练 数据 非常 小 , 仅仅 利用 标 
注 数 据 很 难 获得 高 质量 的 词 向 量 表 示 , 因此 , 一 般 会 借助 海量 无 标注 的 单 语 数据 获得 一 
个 质量 尚 可 的 词 向 量 表示 。 例如 , 可 采用 维基 百科 中 的 大 规模 数据 对 词 向 量 进行 初始 化 。 
在 本 书 第 3 章 介绍 分 布 式 表示 方法 时 , 讨论 过 诸如 Skip-gram 等 高 效 的 词 向 量 学 习 方 
法 。 这 些 方法 可 以 用 于 从 海量 无 标注 数据 上 预 训练 (pre-train ) 一 个 词 向 量 模型 , 然后 在 
图 9.20 所 示 的 事件 抽取 模型 中 进一步 优化 (fine-tune)。 

第 二 部 分 是 整个 角色 分 类 模型 的 重点 。 将 句子 中 的 每 个 词语 表示 为 连续 向 量 之 后 ， 
将 分 别 学 习 词 汇 级 和 句子 级 两 类 特征 表示 。 在 词汇 级 特征 学 习 时 ,以 触发 词 + 和 候选 事 
件 元 素 e 为 中 心 ， 分 别 对 其 上 下 文 进 行 建 模 。 具 体 地 讲 , 选择 窗口 大 小 Ki, 将 上 和 ee 及 
其 左右 Ki 个 词语 的 词 向 量 进 行 拼接 ,形成 一 个 代表 词汇 级 特征 的 向 量 表示 Rio 
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由 于 局 部 上 下 文 无 法 捕捉 全 局 信息 ,容易 忽略 重要 的 线索 ,如 在 图 9.20 H, 如 果 取 
上 下 文 窗口 为 Ki = 1, 那么 指示 性 信息 “大 兵 瑞 恩 ”就 无 法 体现 在 触发 词 “ 失 去 ”的 上 下 
文中 。 因此, 学习 句子 级 的 特征 表示 成 为 整个 模型 的 核心 。 卷 积 神经 网 络 是 句子 表示 学 
习 的 典型 方法 , 已 成 功 应 用 于 文本 分 类 、 情 感 分 析 和 机 器 翻译 等 任务 。 但 是 , 传统 的 卷 积 
神经 网 络 不 适合 直接 应 用 于 事件 角色 分 类 任务 , 因为 在 一 个 表示 事件 的 句子 中 , 触发 词 
和 候选 事件 元 素 可 能 有 多 个 ,传统 不 考虑 位 置信 息 的 卷 积 神经 网 络 难以 得 到 对 触发 词 和 
候选 事件 元 素 敏 感 的 全 局 句子 表示 。 因 此 ,需要 依据 当前 所 考察 的 “触发 词 -候选 事件 元 
R (t,e)” 动 态 地 学 习 句 子 级 全 局 表示 。 于是， [Chen et al., 2015b] 提出 了 针对 这 一 问题 
的 动态 卷 积 神经 网 络 模型 ， 如 图 9.20 Aras, 动态 卷 积 神经 网 络 方法 分 为 三 个 步骤 : 四 名 
子 特征 输入 ; @ 卷 积 操作 ; @ 动 态 池 化 。 

句子 级 特征 包括 词 向 量 、 相 对 位 置信 息 和 事件 类 型 三 方面 的 信息 。 对 于 句子 的 第 
i 个 词语 wi， 首先 获得 对 应 的 词 向 量 zi e Re, 然后 分 别 计算 wi 与 触发 词 上 4 和 候选 
事件 元 素 e 之 间 的 距离 pie 和 pier 例如 在 图 9.20 中 词语 “美国 大 使 馆 ” 与 触发 词 “ 失 
去 ”和 候选 事件 元 素 “ 人 炸弹” 之 间 的 相对 距离 分 别 是 4 和 2。 然后 将 距离 映射 为 连续 的 
向 量 pie 和 pie E R? 之后, 将 触发 词 t 对 应 的 事件 类 型 进行 向 量化 ,得 到 e © Re. 
最 后 , 将 zi, pie 和 pie 以 及 c 进行 拼接 作为 第 i 个 词语 wi 对 应 的 输入 Li e Rt, 其 中 
d= dw 十 2 x dp 十 de。 给 定 一 个 包含 nn 个 词 的 句子 s =w -wi Wn, 句子 级 特征 就 是 
一 个 x d 的 矩阵 Lino 

卷 积 操作 的 目标 在 于 利用 特征 过 滤器 从 句子 级 特征 Dan 中 抽象 出 全 局 信息 。 一 个 
过 滤器 fe E€ RIAA 将 以 个 词 的 窗口 从 句子 的 第 一 个 词 开 始 扫 描 ， 直到 最 后 一 个 词 , 每 
个 窗口 Linge 得 到 一 个 输出 : 


Uni = f (We + Lizhyi-1 + bx) (9.83) 


其 中 , Wi 和 bx 分 别 是 权重 和 偏 置 ，f 为 非 线 性 激活 函数 。 遍历 每 个 窗口 ，f. 将 得 到 一 
个 (n — h +1) 维 的 向 量 wk = [Vki y, Uki ,Vkn-_h+1]。 如 果 采 用 K 个 过 滤器 , 将 得 
到 一 个 x (n—h+1) RERE. HF n 是 句子 的 长 度 , 对 于 不 同 的 句子 过 滤器 得 到 
的 向 量 维度 不 同 , 因此 需要 进行 池 化 操作 。 

最 大 池 化 和 平均 池 化 是 最 为 常用 的 池 化 操作 ,最 大 池 化 就 是 从 向 量 w 中 选择 最 大 
的 元 素 作 为 典型 特征 。 由 于 之 前 提 到 的 全 局 最 大 池 化 方法 对 位 置 不 敏感 , 无 法 区 分 触发 
词 和 候选 事件 元 素 的 作用 , 不 适合 于 事件 角色 分 类 任务 , 因此 需要 对 池 化 方法 进行 优 
化 。 动态 最 大 池 化 方法 是 针对 事件 抽取 任务 提出 的 ,是 一 种 触发 词 和 候选 事件 元 素 敏 
感 的 池 化 方法 。 如 图 9.20 所 示 , 根据 触发 词 和 候选 事件 元 素 将 向 量 wk 动态 地 划分 为 
三 组 : wk = [okieuketHtb Vi,ttin—hgil> 其 中 , e 和 上 分 别 表 示 候 选 事件 元 素 和 触发 词 
的 位 置 ， 如 果 触 发 词 在 候选 事件 元 素 之 前 ,那么 Uk = [Uk a:t) Vk,t4ties Uke+1in—h4t]> 最 
后 , 分 别 从 三 组 向 量 Vk rer Vkeprt 和 vk,tpi:n_h+1 中 选择 最 大 值 输出 ， 便 得 到 一 个 三 
维 的 向 量 。 再 将 KK 个 过 滤器 的 动态 池 化 输出 进行 拼接 , 最 终 得 到 一 个 维度 固定 的 向 量 
R: € RE”. 由 于 向 量 中 每 个 维度 与 触发 词 和 候选 事件 元 素 相关 ， 因此 , 该 向 量 能 够 在 
一 定 程度 上 表示 触发 词 与 候选 事件 元 素 敏感 的 句子 语义 。 
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第 三 部 分 的 角色 分 类 模型 采用 前 馈 神经 网 络 , 将 词汇 特征 的 分 布 式 表示 R 与 句子 
特征 的 分 布 式 表 示 Rs 拼接 之 后 得 到 的 表示 [Ri Re] 作为 输入 , 利用 Softmax 函数 计算 
给 定 触发 词 t, 候选 事件 元 素 e 在 角色 集合 上 的 概率 分 布 。 
回 到 触发 词 识别 任务 , 可 以 采用 与 图 9.20 相同 的 框架 , 只 是 模型 更 为 简单 。 不 同 于 
事件 角色 分 类 任务 , 输入 包括 句子 、 触 发 词 和 候选 事件 元 素 , 在 触发 词 识别 任务 中 输入 
是 句子 和 候选 触发 词 。 因此 , 第 二 部 分 的 词汇 特征 的 分 布 式 表示 与 句子 特征 的 分 布 式 表 
示 需 要 相应 地 调整 。 在 词汇 特征 的 分 布 式 表示 中 , 只 需要 取 候选 触发 词 相 邻 的 词汇 作为 
上 下 文 。 在 句子 特征 的 分 布 式 表 示 中 , 动态 池 化 仅 将 候选 触发 词 作为 分 割 点 ， 取 左右 卷 
积 向 量 中 的 最 大 值 。 第 三 部 分 的 分 类 模型 无 需 做 任何 改变 。 

实验 表明 , 基于 分 布 式 特征 表示 的 事件 抽取 模型 能 够 取得 更 好 的 事件 抽取 性 能 。 
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对 事件 抽取 模型 进行 客观 评价 的 一 般 方法 是 : 给 定 一 个 测试 集 Testevent， 人 类 专家 
对 Testevent 进行 了 正确 的 事件 标注 , 获得 已 知 参 考 答案 Refevent。 事 件 抽取 模型 M 在 测 
试 集 Testevent 上 进行 事件 标注 , 得 到 预测 结果 Modelevent， 对 比 预测 结果 Modelevent 和 
已 知 答案 Refevent， 分 别 计算 准 确 率 、 召 回 率 和 五 测度 值 。 

由 于 几乎 所 有 的 模型 都 将 事件 抽取 任务 分 解 为 触发 词 识别 和 事件 角色 分 类 两 个 步 
又 ,其 中 触发 词 识别 又 可 分 解 为 触发 词 定 位 与 事件 类 型 分 类 两 个 子 任务 ， 而 事件 角色 分 
类 又 可 分 解 为 事件 元 素 识别 与 角色 分 类 两 个 子 任务 , 因此 ,客观 评测 一 般 对 这 四 个 子 任 
务 分 别 进行 测试 。 

如 果 模 型 找到 了 触发 词 在 事件 描述 中 的 具体 位 置 , 那么 触发 词 定 位 正确 。 在 触发 词 
定位 正确 的 基础 上 ,如 果 事 件 类 型 也 预测 正确 , 那么 事件 类 型 分 类 的 结果 正确 。 如 果 某 
候选 事件 元 素 被 正确 地 识别 为 触发 词 的 关联 属性 , 那么 事件 元 素 识别 是 正确 的 。 如 果 被 
正确 识别 的 事件 元 素 进一步 被 预测 为 正确 的 事件 角色 , 那么 最 终 的 事件 角色 分 类 结果 是 
正确 的 。 根 据 结 果 匹 配 情 况 ,准确 率 、 召 回 率 和 五 测度 值 很 容易 被 计算 出 来 。 这 三 个 指 
标的 计算 公式 已 在 很 多 章节 中 介绍 过 了 , 这 里 不 再 袭 述 。 
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综 上 所 述 , 信息 抽取 包括 实体 识别 、 关 系 分 类 和 事件 抽取 等 多 个 相互 关联 的 任务 。 
目前 的 处 理 方法 仍然 以 级 联 的 管道 式 策略 为 主 , 并 且 每 个 任务 的 关注 重点 仍然 是 在 限定 
的 领域 。 

从 方法 的 角度 ,深度 学 习 方法 已 成 为 信息 抽取 各 子 任务 的 主流 模型 。 如 何 探索 更 加 
有 效 的 模型 成 为 一 种 趋势 。 例 如 , [Miwa and Bansal, 2016] 和 [Peng et al., 2017] 采用 表达 
能 力 更 强 的 神经 网 络 结构 (如 基于 树 和 图 的 长 短 时 记忆 网 络 TreeLSTM, GraphLSTM) 
对 关系 抽取 等 任务 进行 建 模 ; [Narasimhan et al., 2016] 和 [Wu et al., 2017] 借助 强化 学 
习 和 对 抗 学 习 等 方法 优化 信息 抽取 模型 。 为 了 减少 错误 传递 , 对 两 个 以 上 的 任务 进行 联 
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合 建 模 也 是 众多 研究 者 关注 的 方向 。 例 如 , 对 实体 识别 和 关系 分 类 进行 联合 建 模 [Li and 
Ji, 2014; Zheng et al., 2017], 即将 实体 识别 和 关系 分 类 两 个 任务 形式 化 为 一 个 统一 的 序 
列 标注 任务 。 为 了 利用 更 多 的 上 下 文 信息 ,对 信息 抽取 任务 进行 全 局 优化 和 推断 , 也 是 


从 数据 的 角度 ， 目 前 信息 抽取 各 任务 的 训练 数据 规模 都 比较 有 限 ， 很 难 支撑 复杂 
的 机 器 学 习 模型 。 如 何 自动 生成 大 规模 高 质量 的 训练 数据 成 为 信息 抽取 和 领域 关注 的 热 
点 。 基 于 知识 库 的 远程 监督 方法 是 近年 来 提出 的 主流 方法 ， 且 比较 有 效 ， 备 受 研究 者 
的 青睐 [Mintz et al., 2009; Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 
2012; Zeng et al., 2015; Lin et al., 2016; Chen et al., 2017b; Luo et al., 2017]. 但 是 ， 
远程 监督 方法 面临 大 量 噪声 和 错误 问题 , 例如 ,并 不 是 所 有 包含 “姚明 ”和 “叶莉 ”的 句 
子 都 表明 是 “配偶 ” 关系。 因此, 如何 尽 可 能 地 降低 噪声 的 影响 成 为 学 界 研究 的 重点 。 最 
近 有 学 者 提出 了 基于 “至 少 一 个 正 例 ”假设 的 多 示例 学 习 方法 [Zeng et al., 2015] 和 基于 
选择 注意 机 制 的 模型 [Lin et al., 2016]。 除 了 关系 分 类 中 使 用 远程 监督 方法 以 外 ,该 方法 
也 被 引入 到 事件 抽取 任务 中 , 产生 了 大 量 事件 标注 数据 [Chen et al., 2017b]。 此 外 ， 高效 
的 众 包 (crowdsourcing) 方法 也 成 为 扩充 训练 数据 的 一 种 策略 [Abad et al., 2017]。 

从 应 用 的 角度 , 限定 类 型 、 限 定 领域 的 信息 抽取 技术 仍然 是 学 术 界 研究 的 重心 , 但 是 
在 实际 应 用 中 , 尤其 在 大 数据 的 网 络 环境 中 , 开放 类 型 、 开 放 领 域 的 信息 抽取 技术 更 为 实 
用 。 因此, 研究 开放 域 的 信息 抽取 技术 受到 越 来 越 多 的 关注 。 开 放 域 实体 抽取 任务 聚焦 
于 开放 文本 (网 络 数据 ) 的 实体 扩充 (entity expansion) 技术 [Pennacchiotti and Pantel, 
2009; Jain and Pennacchiotti, 2010]; 开放 域 的 关系 抽取 重点 解决 无 预 设 关系 类 别 的 实 
体 关系 分 析 [Banko et al., 2007; Mausam et al., 2012; Angeli et al., 2015; Stanovsky 
and Dagan, 2016]; 事件 综合 与 新 事件 预测 关注 多 个 事件 的 聚合 以 及 无 预 设 类 型 的 新 事 
件 发 现 等 问题 [Do et al., 2012; Huang and Huang, 2013]. 
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10.1 概 述 


文本 自动 摘要 或 称 文档 自动 摘要 ， 也 称 自 动 文 本 摘要 (automatic text summariza- 
tion) ， 是 利用 计算 机 自动 地 将 文本 (或 文档 集合 ) 转换 成 简短 摘要 的 一 种 信息 压缩 技 
Re 一 般 而 言 , 生成 的 简短 摘要 必须 满足 信息 量 充 分 、 能 够 覆盖 原文 的 主要 内 容 、 元 余 度 


经 成 为 数据 挖 据 、 信 息 过 滤 、 获 取 和 推荐 的 一 个 重要 手段 。 

1958 年 HP. Luhn 首次 提出 了 自动 文摘 的 思想 [Luhn, 1958]， 由 此 揭 开 了 文本 自 
动 摘 要 研究 的 序幕 。 随 着 信息 时 代 的 兴起 , 互联 网 上 每 天 随时 产生 的 各 种 语言 、 各 种 题 
材 、 各 种 领域 和 主题 的 海量 文本 ,迫切 需要 一 种 技术 , 能 够 帮助 用 户 高 效 、 快速 地 获取 
有 用 信息 , 使 用 户 能 够 在 短 时 间 内 了 解 新 闻 事件 的 梗概 , 压缩 阅读 时 间 , 这 种 需求 推 
动 着 自动 文摘 技术 快速 发 展 ， 并 逐步 走向 成 熟 。 美 国 国家 标准 与 技术 研究 院 (National 
Institute of Standards and Technology, NIST) 自 2000 年 起 组 织 的 文本 自动 摘要 技术 国 
际 评测 (DUC, TAC?) 进一步 加 速 了 这 项 技术 研究 , 吸引 了 更 多 研究 者 和 企业 家 的 
关注 5 

从 不 同 的 角度 文本 自动 摘要 技术 可 以 被 划分 为 不 同 的 类 型 。 按 照 摘 要 的 功能 划分 ， 
可 以 分 为 指示 型 摘要 (indicative)、 报 道 型 摘要 (informative) 和 评论 型 摘要 (critical)。 
指示 型 摘要 仅 提 供 输入 文档 (或 文档 集 ) 的 关键 主题 , 则 在 帮助 用 户 决 定 是 否 需 要 阅读 
原文 , 如 标题 生成 。 报 道 型 摘要 提供 输入 文档 (或 文档 集 ) 的 主要 信息 , 使 用 户 无 需 阅读 
原文 。 评论 型 摘要 不 仅 提 供 输 入 文档 (或 文档 集 ) 的 主要 信息 , 而 且 需 要 给 出 关于 原文 的 
关键 评论 。 

根据 输入 文本 的 数量 划分 ， 可 以 划分 为 单 文档 摘要 (single-document summariza- 
tion) 和 多 文档 摘要 Cnulti-document summarization) 两 种 类 型 。 而 根据 输入 和 输出 语 
言 的 不 同 ， 自 动 文摘 可 以 划分 为 单 语言 摘要 (monolingual summarization) 、 跨 语言 
要 (cross-lingual summarization) 和 多 语言 摘要 (multi-lingual summarization) 。 单 语 
言 摘要 的 输入 和 输出 都 是 同一 种 语言 ,器 语言 摘要 的 输入 是 一 种 语言 (如 英语 )， 而 输出 
是 另 一 种 语言 (如 汉语 ), 多 语言 摘要 的 输入 是 多 种 语言 (如 英语 、 汉语 和 法 语 等 ), 输出 


1http://duc.nist.gov/ 
2https://tac.nist.gov/about/index.html 
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是 其 中 的 某 一 种 语言 (如 汉语 )。 

根据 应 用 形式 的 不 同 ， 自 动 摘要 技术 又 可 划分 为 通用 型 摘要 (generic summariza- 
tion) 和 面向 用 户 查 询 的 摘要 (query-based summarization)， 前 者 总 结 原文 作者 的 主要 
观点 , 后 者 提供 与 用 户 兴趣 密切 相关 的 内 容 。 从 文摘 与 原文 的 关系 ( 即 文摘 获取 方法 ) 划 
4y, 自动 摘要 技术 还 可 以 分 为 抽取 式 摘 要 (extraction-based summarization) 、 压 缩 式 
摘要 (compression-based summarization) 和 理解 型 摘要 (abstraction-based summariza- 
tion) 。 抽 取 式 摘要 通过 摘录 原文 中 的 重要 句子 形成 文摘 , 压缩 式 摘要 通过 抽取 并 简化 原文 
中 的 重要 句子 构成 文摘 , 而 理解 型 摘要 则 通过 改写 或 重新 组 织 原文 内 容 形 成 最 终 文摘 。 

图 10.1 给 出 了 文本 自动 摘要 技术 的 基本 框架 。 如 图 所 示 ， 如果 按照 输出 文摘 的 长 度 
划分 , 摘要 可 以 分 为 标题 式 摘要 、 短 摘要 和 长 摘要 。 


图 10.1 文本 自动 摘要 技术 的 基本 框架 


由 于 多 文档 摘要 的 概念 具有 更 大 的 外 延 , 而 且 多 文档 摘要 技术 涉及 更 加 广泛 的 技术 
内 容 ， 因此 ,多 文档 摘要 一 直 是 自动 文摘 领域 最 受 关注 和 最 具 挑 战 性 的 研究 方向 。 根据 
前 面 的 解释 ， 从 概念 上 讲 多 文档 摘要 是 将 多 个 文本 表述 的 信息 按照 压缩 比 提炼 成 一 个 文 
摘 。 从 应 用 的 角度 看 , 一 方面 , 在 互联 网 上 搜索 信息 时 , 搜索 同一 主题 的 文档 往往 会 返回 
成 二 上 万 个 网 页 , 如果 将 这 些 网 页 形成 一 个 统一 、 精 炼 、 能 够 反映 主要 信息 的 摘要 ， 必 将 
极 大 地 提升 用 户 获取 信息 的 效率 。 另 一 方面 , 对 于 某 一 新 闻 单 位 针对 同一 事件 的 系列 报 
道 ， 或 者 数 家 新 闻 单 位 在 某 一 时 间 段 内 对 于 同一 事件 的 报道 , 如果 能 够 从 这 些 相关 性 很 
强 的 文档 中 提炼 出 一 个 覆盖 性 强 、 形 式 简洁 的 摘要 , 将 会 有 效 降 低 信息 存储 和 传播 的 代 
价 ， 节 省 用 户 阅 读 的 时 间 。 这 两 种 情况 正 是 多 文档 摘要 技术 的 典型 应 用 。 

相 比 而 言 ， 单 文档 自动 摘要 可 以 视 为 多 文档 自动 摘要 的 特例 ,近年 来 由 于 大 量 单 文 
档 摘要 标注 数据 的 公开 , 也 逐渐 成 为 大 家 关注 的 重点 之 一 。 本 章 将 首先 以 单 文档 和 多 文 
档 自动 摘要 为 例 分 别 介绍 自动 摘要 技术 的 不 同 实现 方法 , 然后 介绍 其 他 类 型 的 摘要 ， 如 
基于 查询 的 自动 摘要 、 跨 语言 和 多 语言 自动 摘要 , 最 后 介绍 公开 的 自动 摘要 评测 数据 和 
摘要 自动 评价 方法 。 


10.2 ”抽取 式 自 动 摘 要 


抽取 式 自 动 摘要 技术 直接 从 原文 中 抽取 句子 形成 摘要 。 虽然 这 样 做 似乎 偏离 摘要 的 
本 质 , 但 是 在 实际 应 用 中 简单 有 效 , 而 且 能 保持 句子 的 流畅 性 和 可 读 性 , 所 以 一 直 受 到 
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业界 青睐 。 以 下 以 多 文档 自动 摘要 为 例 , 详细 介绍 抽取 式 自动 摘要 方法 的 基本 思想 和 实 
现 方法 。 

多 文档 自动 摘要 任务 可 以 形式 化 地 描述 为 : 给 定 文档 集合 D = {Di}, i = 1,… N, 
其 中 每 个 文档 Pi = {5i,，,… ,Si,,… Siny Him 个 句子 按 顺 序 构成 ,从 文档 集合 D 
中 选 出 五 个 句子 组 成 摘要 ， 其 中 是 人 为 设 定 的 句子 数目 或 者 由 压缩 比 得 到 的 句子 数 
Fle 在 很 多 自动 文摘 系统 中 ,可 允许 句子 数目 K 动态 变化 , 只 需要 将 最 终生 成 的 摘要 控 
制 在 限定 的 字数 范围 内 (如 100 字 的 中 文摘 要 )。 

从 上 述 形式 化 描述 可 以 看 出 , 完成 自动 摘要 需要 三 个 关键 步 又: 找 出 最 重要 、 最 
具 信 息 量 的 候选 句子 集合 ; @ 尽 量 降低 候选 句子 集合 的 匈 余 性 ; @ 根 据 压缩 比 或 摘要 长 
度 的 要 求 , 结合 句子 顺序 等 约束 生成 摘要 。 第 中 步 需 要 设计 针对 句子 重要 性 的 评估 算法 ， 
后 两 步 需 要 构造 基于 约束 的 摘要 生成 算法 。 


10.2.1 “句子 重要 性 评估 


自 1958 年 Luhn 和 Baxendale 等 人 研究 自动 摘要 技术 以 来 , 相继 出 现 了 若干 句子 
重要 性 评估 算法 , 如 果 从 算法 是 否 借助 于 人 工 标 注 样 本 的 角度 ,可 以 将 这 些 评估 算法 划 
分 为 无 监督 的 数据 驱动 算法 和 有 监督 的 机 器 学 习 算 法 两 种 。 

1. 无 监督 的 数据 驱动 算法 

无 监督 的 数据 驱动 算法 又 可 分 为 三 类 : (1) 基于 词语 频率 的 评估 算法 ; (2) 基于 文档 
结构 的 评估 算法 ; 和 (3) 基于 图 (graph-based) 的 评估 算法 。 

(1) 基于 词语 频率 的 评估 算法 

词语 是 句子 重要 性 评估 算法 最 常用 的 特征 , 这 种 算法 的 基本 假设 是 : 如 果 一 个 词语 


在 文档 中 出 现 的 频率 越 高 , 说 明 该 词 越 重 要 。 如 果 一 个 句子 包含 的 高 频 词 越 多 ,那么 说 
明 该 句子 越 重要 。 基 于 这 种 假设 , 可 以 采用 如 下 公式 计算 句子 Si 的 重要 性 得 分 : 


> Score (wp) 


WeESi; 


Score (5;,) = Hues, (10.1) 
Score (wk) = TP, = une) (10.2) 
X count (w) 


w 


Hp, Score (Si,) 表示 第 i 个 文档 中 的 第 j 个 句子 的 重要 性 得 分 ，count (wk) 是 词语 
ws 在 整个 文档 Di 中 出 现 的 次 数 ，》 count (w) 表示 整个 文档 Di 中 所 有 词 出 现 的 次 


数 总 和 。 由 于 有 些 词语 ， 如 “在 ”“ 的 ?“ 这 个 ”“ 对 于 ”等 对 于 句子 重要 性 评估 没有 实 
质 性 意义 ， 因 此 在 实际 应 用 中 一 般 都 会 在 预 处 理 时 作为 停 用 词 去 掉 ( 见 第 2 章 的 介 
绍 )。Score (wk) 通常 称 为 词 频 , 即 TF (term frequency). 
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这 种 方法 简单 易 行 , 但 是 存在 一 个 严重 的 缺陷 : 有 些 词语 对 于 表达 句子 的 含义 并 不 
重要 , 但 在 不 同 的 文档 、 不 同 的 句子 中 都 经 常 出 现 , 在 TF 算法 中 得 分 却 很 高 。 为 了 克服 
这 一 缺陷 , 逆向 文档 频率 IDF (inverse document frequency) 被 普遍 采用 : 


|D| 


IDF,, = log 
oseD 


(10.3) 
IDF, 是 词语 wk 普遍 性 的 度量 , 如 果 IDFw, BEA, 式 (10.3) 中 的 分 母 就 越 小 , 说 明 较 
少 的 文档 含有 该 词语 ,那么 该 词语 对 于 那些 所 在 的 文档 就 比较 重要 。 关 于 这 一 点 , 在 本 
书 第 3 章 和 第 4 章 里 都 有 介绍 。 

可 以 看 出 TF 与 IDFw 都 只 能 表示 词语 wk 的 某 一 方面 的 作用 , 为 了 更 加 全 面 
地 刻画 词语 wok 对 于 文档 Si, 的 重要 性 , 结合 两 种 度量 方法 形成 TFIDFw 计算 方法 ， 即 
利用 下 面 的 公式 计算 最 终 得 分 Score (wp): 


Score (wp) = TFIDFy, = TFy, x IDF», (10.4) 


EHAR (10.1) ~ 公式 (10.4) 给 出 的 句子 重要 性 得 分 计算 方法 非常 简单 , 但 无 法 
刻画 最 终 摘要 的 覆盖 度 。 为 了 弥补 这 一 缺陷 ,人 们 提出 了 主题 分 析 方法 ， 如 潜在 语义 分 
析 CLSA) 方法 [Landauer, 2006] 和 潜在 狄 利克 雷 分 配 (LDA) 模型 [Blei et al., 2003]. 
关于 这 类 方法 的 详细 介绍 , 请 见 本 书 第 6 章 。 

此 外 , 一些 线索 词语 (如 “显著 ”“ 总 之 ”等 ) 和 命名 实体 也 通常 作为 重要 性 评估 的 
特征 。 

(2) 基于 文档 结构 的 算法 

除了 内 容 特征 以 外 ,有 些 文档 结构 特征 往往 能 够 表明 句子 的 重要 程度 。 其 中 , 句子 
在 文档 中 的 位 置 和 句子 的 长 度 是 两 个 常用 的 文档 结构 特征 [Edmundson, 1969]。 有 研究 
表明 , 每 个 段落 中 的 首 句 最 能 够 反映 和 表达 整个 段落 的 内 容 , 尤其 在 英文 的 评论 性 文章 
中 ,可 见 句子 位 置 的 重要 性 。 在 很 多 研究 中 , 句子 位 置 的 重要 性 可 通过 如 下 的 公式 计算 
获得 : 
n=j+1 

n 
其 中 , j 表示 句子 S 在 文档 中 的 位 置 , n 表示 该 文档 中 的 句子 数目 。 

(3) 基于 图 的 算法 

一 个 句子 的 重要 性 不 仅 体现 在 句 内 的 词语 构成 上 , 更 应 该 体现 在 该 句子 与 文档 (或 
文档 集 ) 中 其 他 句子 之 间 的 相互 关系 : 如 果 支 持 该 句子 重要 性 的 其 他 句子 越 多 , 那么 该 
句子 越 重要 。 这 一 思想 来 源 于 网 页 排序 中 的 PageRank 算法 : 如 果 一 个 网 页 被 若干 网 页 
链接 到 或 被 多 个 重要 网 页 链接 到 , 说 明 该 网 页 越 重 要 [Page and Brin, 1998]。 

PageRank 算法 是 一 种 基于 有 向 图 的 排序 模型 。 对 于 有 向 图 G (V, E), V 是 节点 集 
合 , 每 个 节点 表示 一 个 网 页 , E 是 有 向 边 集合 , BAW e = (Vi, Vj) 表示 可 从 网 页 Vi BE 
转 至 网 页 VW。 对 于 一 个 节点 Vio In (Vi) 表示 链接 至 Vi 的 网 页 集合 , |In (WVi)| 表示 Vi 的 


Score (S;,) = (10.5) 
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ABE. Out (V;) 表示 由 Vi 链接 到 的 其 他 网 页 集合 , |Out (V;)| 表示 V: 的 出 度 。 每 个 网 页 
的 权重 即 为 该 网 页 的 重要 性 得 分 。 权 重 可 由 如 下 公式 计算 获得 : 
d 


S(Vi)= = +dx os pays (10.6) 


其 中 , d € [0,1] 为 阻尼 因子 (damping factor) ， 赋 予 节点 Vi 跳 转 至 任意 节点 Vi 的 一 个 
先 验 概率 , 在 网 页 排序 中 通常 设 为 0.85。 基 于 图 的 排序 算法 在 初始 阶段 为 每 一 个 节点 的 
权重 赋予 一 个 随机 值 , 然后 , 算法 迭代 计算 公式 0.6), 直至 图 中 每 个 节点 的 权重 在 两 
FERRIERE SEH (Vi) — SĂ (Vi) 小 于 设 定 的 阔 值 。 

基于 图 的 句子 重要 性 评估 算法 是 PageRank 的 一 种 扩展 , 例如 LexRank 算法 [Erkan 
and Dragomir, 2004], 除了 有 向 图 G (V, E) 变 为 无 向 图 之 外 , 图 中 每 一 条 边 e = (Vi, Vj) 
都 携带 一 个 权重 Wij. AG(V,E) 中 的 V 表示 句子 集合 , BE 表示 无 向 边 集合 。 如 果 存 
TE e = (Vi, Vj) € E, 则 说 明 句 子 Vi AV; 具有 相关 性 或 相似 性 。 相 关 或 相似 程度 由 权重 
Wiz 表示 。Wi; 有 多 种 计算 方法 ,以 下 介绍 一 种 常用 的 基于 TF-IDF 的 余弦 相似 度 方法 
计算 两 个 句子 Vi 和 Vi 的 相似 度 : 


>, (TFIDF,) 


wEVi,Vj 


> (TFIDF,)? x | > (TFIDF,)” 


zEV; yEVj 


Wy = 


其 中 , w E Vi, V 表示 句子 Vi 和 Vi 中 同时 出 现 的 词语 。 给 定 一 个 加 权 的 无 向 图 G (V, E), 
每 个 节点 (句子 ) 的 重要 性 得 分 由 如 下 公式 计算 : 
SW = —" Gay 


N VEadi(Vi) Wx 
Vk Eadi(V;) 


4 __s (Vv) (10.7) 


tH Vj € adj (Vi) 表示 Vi 的 相 邻 节点 集合 , 即 与 Vi 有 链接 边 的 节点 集合 。 节 点 的 
重要 性 得 分 初始 值 设置 和 算法 收敛 的 条 件 与 PageRank 算法 类 似 。 

TextRank 算法 [Mihalcea and Tarau, 2004] 与 LexRank 算法 基本 思想 一 致 ,主要 区 
别 在 于 两 个 句子 Vi AV; 之 间 相 似 度 的 计算 方式 。TextRank 算法 采用 两 个 句子 之 间 的 
词语 重 有 合 度 作为 相似 度 : 


{wrlwr € Vi & we €E V;}| 
7 log |Vi| + log |V;| 


JE, {wrlwr € Vi & we E Vi}| 表示 两 个 句子 中 同 现 的 词语 数目 , |Vi| 和 V 分 别 表 示 
句子 Vi AV; 中 词语 的 数目 。 下 面 通过 一 个 具体 例子 说 明 LexRank 算法 的 执行 过 程 。 假 
设 有 三 个 关于 同一 主题 的 文档 , 将 每 个 文档 切 分 为 句子 , 组 成 句子 集合 , 如 表 10.1 所 示 。 
“dls1” 表 示 第 一 个 文档 中 的 第 一 个 句子 ,“d2s2” 表 示 第 二 个 文档 中 的 第 二 个 句子 ,以 此 
类 推 。 表 10.2 给 出 了 任意 两 个 句子 之 间 的 TFIDF 余弦 相似 度 得 分 。 图 10.2 展示 了 三 个 
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表 10.1 多 文档 句子 集合 

序号 ID 句子 

1 disi 1 月 10 日 讯 国 际 足 联 周二 宣布 世界 杯 扩军 至 48 支 球 队 , 这 是 世界 杯 自 1998 年 
以 来 首次 扩军 , 而 在 世界 杯 87 年 的 历史 上 , 赛制、 赛程 已 经 经 历 了 多 次 改变 ， 
参赛 球 队 也 从 16 支 扩大 到 48 支 。 

2 dls2 因 凡 蒂 诺 主 政 国际 足 联 已 接近 一 年 的 时 间 , 他 上 任 之 初 就 提出 改革 的 口号 ， 世 
界 杯 扩 军 就 是 他 上 任 近 一 年 以 来 最 大 的 改革 举措 。 

3 dls3 他 提出 扩军 的 构想 与 他 此 前 促成 欧洲 杯 扩军 的 动机 是 一 样 的 , 他 不 希望 参加 世 
界 杯 决赛 圈 的 队伍 总 是 一 些 老 面孔 , 希望 有 更 多 的 边缘 球 队 能 够 进入 决赛 圈 ， 
体会 足 坛 盛宴 的 快乐 。 

4 d2s1 昨日 ,国际 足 联 理 事 会 正式 对 扩军 方案 进行 投票 表决 ， 不 出 意外 ,扩军 至 48 
队 分 为 16 个 小 组 的 方案 获得 通过 ,国际 足 联 官方 推 特 也 立即 对 外 宣布 了 这 一 
消息 。 

5 d2s2 Á 2016 年 2 HAMA A eR BEN. 世界 杯 扩军 便 已 势 在 必 行 , 唯一 
悬念 只 在 于 扩军 的 规模 与 赛制 的 改变 。 

6 d2s3 最 开始 时 ,， 因 凡 蒂 诺 提 出 的 是 扩军 至 40 支 球 队 参 赛 , 在 此 前 提 下 又 分 为 两 种 赛 
制 , 一 种 是 分 为 八 个 小 组 , 每 个 小 组 五 支 球 队 , 另 一 种 是 分 为 十 个 小 组 , 每 个 小 
组 四 支 球 队 。 

是 d2s4 两 个 月 后 ， 因 凡 蒂 诺 再 度 提 出 新 方案 ,48 支 球 队 参 赛 , 分 为 16 个 小 组 , 每 个 小 
组 3 支 球 队 , 小 组 前 两 名 出 线 , 然后 进行 淘汰 赛 决 出 冠军 。 

8 d2s5 世界 杯 参赛 队伍 将 从 32 队 扩展 到 48 队 , 这 也 意味 着 未 来 的 世界 杯 将 有 接近 四 
分 之 一 的 国际 足 联 成 员 国 可 以 参赛 。 一些 在 以 前 进 不 了 世界 杯 的 足球 弱 国 , 终 
于 看 到 了 希望 。 

9 d2s6 “ 想 在 一 个 地 方 推广 足球 , 没有 比 让 他 们 的 国家 队 参 与 到 世界 杯 更 好 的 方法 
了 。” 因 凡 蒂 诺 之 前 就 这 样 表态 。 

10 d3s1 北京 时 间 1 月 10 A, 国际 足 联 宣布 ,从 2026 年 世界 杯 开 始 , 世界 杯 参赛 球 队 
将 由 目前 的 32 支 球 队 扩 充 至 48 支 。 

i d3s2 最 终 国 际 足 联 官 方 宣布 ， 自 从 2026 年 开始 , 小 组 赛 将 分 为 16 个 小 组 , 每 个 小 
组 3 支 球 队 , 小 组 内 进行 单 循 环比 赛 , 排名 前 两 位 的 球 队 晋级 下 一 轮 , 然后 进行 
淘汰 赛 , 全 部 比赛 将 在 32 天 内 完成 。 

12 d3s3 虽然 此 前 各 方 意见 不 尽 一 致 ,但 扩军 符合 更 多 国际 足 联 成 员 的 利益 , 这 也 与 


因 凡 带 诺 去 年 当选 国际 足 联 主席 时 的 承诺 和 陈述 相符 , 因此 本 次 扩军 乃 大 势 
所 趋 。 


文档 中 的 12 个 句子 构成 的 无 向 图 。 算法 迭代 地 计算 公式 (10.7), 直至 收敛 , 最 终 获得 了 


每 个 句子 的 


要 性 得 分 ,如 图 10.2 中 方 括号 内 的 数值 所 示 。 其 中 , 最 终 得 分 最 高 的 句子 


为 dlsl, 与 人 的 判断 相符 , 表明 该 算法 比较 合理 。 


2. 基于 有 监督 的 重要 性 评估 算法 


在 很 多 应 月 


日 场景 中 ,特别 是 单 文档 的 自动 摘要 , 存在 大 量 专家 总 结 的 摘要 ， 即 每 个 


文档 都 有 一 个 人 工 给 出 的 摘要 , 这 就 形成 了 大 量 “ 文 档 -摘要 ”(Doc, Sum) 对 ,如 在 科技 
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表 10.2 句子 之 间 的 TF-IDF 余弦 相似 度 


1.000 
0.129 
0.141 
0.121 
0.187 
0.106 
0.137 
0.173 
0.076 
0.471 
0.266 
0.150 


0.129 
1.000 
0.239 
0.040 
0.114 
0.039 
0.032 
0.086 
0.085 
0.137 
0.109 
0.120 


0.141 
0.239 
1.000 
0.044 
0.101 
0.094 
0.027 
0.167 
0.052 
0.140 
0.144 
0.199 


0.121 
0.040 
0.044 
1.000 
0.152 
0.262 
0.365 
0.197 
0.071 
0.072 
0.138 
0.096 


[0.069] d3s3 


0.187 
0.114 
0.101 
0.152 
1.000 
0.156 
0.196 
0.109 
0.088 
0.091 
0.029 
0.176 


0.106 
0.039 
0.094 
0.262 
0.156 
1.000 
0.498 
0.114 
0.082 
0.119 
0.214 
0.051 


d1s1 [0.103] 


0.137 
0.032 
0.027 
0.365 
0.196 
0.498 
1.000 
0.135 
0.084 
0.142 
0.282 
0.020 


0.173 
0.086 
0.167 
0.197 
0.109 
0.114 
0.135 
1.000 
0.152 
0.206 
0.091 
0.069 


0.076 
0.085 
0.052 
0.071 
0.088 
0.082 
0.084 
0.152 
1.000 
0.040 
0.021 
0.043 


d1s2 [0.066] 


[0.083] d2s5 


NS 


SS“ 


d2s4 [0.101] 


ZY 


图 10.2 多 文档 句子 集合 构成 的 无 向 图 


0.471 
0.137 
0.140 
0.072 
0.091 
0.119 
0.142 
0.206 
0.040 
1.000 
0.369 
0.129 


0.266 
0.109 
0.144 
0.138 
0.029 
0.214 
0.282 
0.091 
0.021 
0.369 
1.000 
0.162 


0.150 
0.120 
0.199 
0.096 
0.176 
0.051 
0.020 
0.069 
0.043 
0.129 
0.162 
1.000 


领域 里 几乎 每 一 篇 论文 都 有 作者 给 出 的 摘要 。 显 然 , 给 定 标注 训练 数据 的 前 提 下 , 句子 
重要 性 的 评估 不 仅 可 以 综合 更 多 有 价值 的 特征 (如 位 置信 息 、 词 频 信息 、 图 模型 排序 得 
分 等 ), 而 且 可 以 考察 更 多 的 机 器 学 习 模型 (如 支持 向 量 机 、 对 数 线性 模型 、 神 经 网 络 模 


型 等 )。 


对 于 有 监督 的 算法 来 说 , 最 佳 的 人 工 参 考 摘要 应 该 由 原始 文档 中 的 句子 组 成 , 而 不 
是 人 工 抽象 生成 的 句子 (虽然 这 更 符合 摘要 的 本 质 ), 并 且 训 练 文档 中 的 每 一 个 句子 都 被 
赋予 一 个 [0,1] 之 间 的 值 , 表示 素 属 于 摘要 句子 的 程度 , 即 句子 的 重要 性 。 一般 地 , 一 篇 
文档 包含 数 十 个 或 者 数 百 个 句子 , 甚至 更 多 ,如果 让 专家 对 若干 篇 文档 中 的 每 一 个 句子 
都 逐一 判断 打分 , 这 显然 不 切合 实际 。 可见, 收集 理想 的 用 于 抽取 式 自动 摘要 的 训练 数 
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据 非常 困难 。 因 此 ,如 何 将 人 工 抽象 生成 的 “文档 -摘要 ”集合 自动 转化 为 理想 的 适合 于 
抽取 式 自 动 摘要 的 训练 数据 , 成 为 监督 算法 需要 解决 的 一 个 重要 问题 。 

给 定 “ 文 档 -摘要 ”(Doc, Sum) 集合 , 排序 算法 的 目标 是 依据 人 工 参考 摘要 Sum 为 
文档 Doc = {so0, s1,… ,sn} 中 的 每 一 个 句子 si 赋予 一 个 0 或 1 布尔 值 , 或 者 赋予 0~1 
之 间 的 一 个 实数 值 。 如 果 赋 予 句子 布尔 值 ， 则 句子 的 重要 性 评估 转换 为 机 器 学 习 中 的 分 
类 问题 如 果 赋 予 0~1 之 间 的 实数 值 ， 则 转换 成 为 一 个 回归 问题 。 实际 上 , 无 论 赋予 什 
么 类 型 的 值 , 给 句子 si 打分 就 是 计算 si 与 人 工 参考 摘要 Sum 之 间 的 相似 度 或 相关 性 。 
常用 的 方法 包括 基于 字符 串 匹 配 的 算法 , 如 编辑 距离 , 或 者 基于 表示 学 习 的 方法 ,如 基 
于 低 维 实数 向 量 句子 表示 的 余弦 距离 等 。 根 据 相似 度 匹配 算法 ， 某 个 句子 si 与 Sum 中 
的 每 一 个 句子 都 会 得 到 一 个 相似 度 得 分 ， 可 将 最 高 得 分 作为 si 与 Sum 之 间 相 关 性 的 
最 终 分 值 。 如 果 只 需要 布尔 值 ， 那 么 检查 si 的 分 值 是 否 大 于 设 定 的 先 验 阔 值 即 可 ， 如 
果 大 于 阔 值 , 则 赋值 为 1， 和 否则 , 为 0。 经 预 处 理 后 ,可 以 获得 最 终 的 训练 数据 : 文档 
Doc = {so s1,… , Sn} 及 其 对 应 的 句子 得 分 SenLabel = {slo,sh,--+ ,sln}。 

以 sl; 取 布 尔 值 为 例 , 句子 重要 性 评估 任务 被 转化 为 序列 标注 问题 给 定 大 量 
的 “文档 -句子 标签 ”(Doc,SenLable) 集合 ， 学 习 一 个 分 类 器 F, 使 其 能 够 对 未 见 文档 
Doe’ = {sp s4,… ,54} 中 的 每 个 句子 预测 一 个 布尔 值 标签 ， 而 标签 为 真 的 概率 将 作为 名 
子 的 重要 性 。 以 下 分 别 从 离散 特征 和 连续 特征 两 个 角度 介绍 有 监督 的 句子 重要 性 评估 
算法 。 

(1) 基于 对 数 线性 模型 的 句子 重要 性 评估 算法 

对 于 评估 句子 的 重要 性 而 言 , 设计 有 效 的 特征 是 机 器 学 习 算法 的 核心 和 前 提 。 不 
同 的 机 器 学 习 方 法 有 不 同 的 假设 前 提 。 朴 素 贝 叶 斯 方法 假设 在 标签 已 知 的 情况 下 特征 
之 间 是 条 件 独立 的 , 对 数 线 性 模型 没有 特征 独立 性 假设 , 而 隐 马 尔 可 夫 模 型 则 假设 句 
子 之 间 满 足 一 阶 马尔 可 夫 性 。 下 面 以 对 数 线性 模型 为 例 介 绍 一 种 句子 重要 性 评估 算法 
[Osborne, 2002]。 

对 数 线性 模型 (log-linear model) 是 一 种 判别 式 机 器 学 习 方法 ， 直接 综合 各 种 特征 
对 后 验 概率 已 (slls)〈 即 句子 的 重要 性 ) 进行 建 模 : 


P (slls) = Zo 位 Afi wa} (10.8) 


其 中 , Z(s) = Ze 人 Afi wa} 为 归 一 化 因子 。fi (s,sl) 是 各 种 句子 特征 ,入 ; 是 
sl i 

对 应 的 特征 权重 。 sl 是 布尔 值 句子 标签 , 取 值 “ 真 (1)” 和 “ 假 (0)” 分 别 对 应 “是 ”和 “不 

是 ”摘要 句子 。 由 于 训练 数据 类 别 极端 不 均衡 (一 篇 文档 中 仅 有 儿 个 正 例 表明 是 摘要 句 

T, 其 他 句子 都 是 负 例 ), 因此 , 包括 对 数 线性 模型 在 内 的 很 多 机 器 学 习 算 法 很 容易 倾向 

于 将 绝 大 多 数 测试 句子 判断 为 负 例 〈 非 摘要 句子 )。 为 了 缓解 这 一 问题 ， 可 以 增加 一 个 类 

别 先 验 : 


sl” = argmax,)P (sl) x P (s,sl) = argmaxs (me (s)+ x Mifi (s, ») (10.9) 
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一 般 地 ， 先 验 概 率 P (sl) 可 依据 目标 函数 在 训练 数据 上 优化 获得 。 在 离散 特征 选择 
方面 , 可 以 尝试 从 表层 信息 到 深层 知识 的 各 种 特征 , 如 句子 在 文档 中 的 位 置 、 名 长、 名 中 
词 的 TFIDF 统计 量 、 基 于 图 模型 的 排序 得 分 以 及 篇 章 结构 信息 等 。 

对 数 线性 模型 依据 上 述 特 征 进行 优化 , 而 在 测试 时 对 输入 文档 中 的 每 个 句子 都 可 以 
得 到 一 个 后 验 概率 P (sls), 也 即 该 句子 的 重要 性 。 如 果 需 要 直接 判断 该 句子 是 否 应 该 被 
WARE, 那么 可 以 依据 后 验 概率 P (sls) EEK FEAR Cu 0.5) 做 出 选择 。 

(2) 基于 深度 神经 网 络 的 句子 重要 性 评估 算法 


句 长 、 词 频 等 离散 特征 虽然 在 一 定 程度 上 可 以 刻画 一 个 句子 的 重要 性 , 但 是 无 法 表 
征 句 子 完整 的 语义 信息 。 更 为 重要 的 是 ,离散 特征 面临 严重 的 数据 稀 玻 问题 ， 且 无 法 捕 
捉 词语 (短语 、 句子 ) 间 的 语义 相似 性 。 例如,“ 摘要 ”和 “文摘 ”具有 相近 的 语义 , 词 频 
等 表层 统计 信息 却 无 法 体现 出 来 。 

近年 来 , 深度 学 习 方法 为 了 克服 这 一 缺陷 , 将 词汇 、 短语 、 句子 和 文档 等 不 同 粒 度 
的 语言 单位 都 映射 至 低 维 连续 的 实数 向 量 空 间 , 希望 语义 相近 的 语言 单元 在 实数 向 量 空 
间 中 分 布 也 相近 。 这 一 表示 方法 避免 了 繁杂 的 特征 工程 ,只 需要 考虑 采用 什么 样 的 神经 
网 络 结构 进行 句子 的 语义 表示 学 习 , 采用 什么 样 的 框架 对 句子 标签 预测 任务 进行 建 模 。 
句子 的 语义 表示 学 习 通常 采用 递归 神经 网 络 、 循 环 神经 网 络 和 卷 积 神经 网 络 等 。 句子 
标签 预测 可 看 为 点 分 类 任务 (句子 间 无 依赖 关系 ) 和 序列 标注 任务 。 下 面 介绍 一 种 基于 
卷 积 神经 网 络 的 句子 表示 方法 和 基于 序列 标注 的 句子 重要 性 预测 方法 [Nallapati et al., 
2017]。 

给 定 句 子 s = ww- Wi 每 个 词语 都 被 映射 至 维 的 低 维 实数 向 量 ( 详 见 本 书 
第 3 W), 并 按 顺 序 排列 在 一 起 Xw = [Xwo, Xw, Xw] WA 10.3 的 最 底 端 
所 示 。 卷 积 神经 网 络 包括 卷 积 算 子 和 池 化 算 子 , 卷 积 算 子 用 于 提取 句子 的 局 部 信息 ,而 
池 化 算法 用 于 抽象 句子 的 全 局 信息 。 

卷 积 算 子 由 工 个 过 滤器 W e RE 组 成 ， 每 个 过 滤器 沿 着 h 个 词语 的 窗口 
KUWiith_1 顺序 提炼 局 部 特征 : 


Wi=o(W:Xwiith-1+b) (10.10) 


其 中 , o 为 非 线 性 激活 函数 (如 ReLU，Sigmoid), b 是 偏 置 项 。 当 过 滤器 沿 着 Xw 直 
到 和 aon_ H, 可 获得 一 个 向 量 &% = [wo,w1,… ,un-_1]。 如 果 采 用 工 个 不 同 的 过 滤器 , 则 
获得 工 个 向 量 , 其 中 每 个 向 量 的 维度 都 是 句子 的 长 度 。 

1 于 句子 的 长 度 不 尽 相 同 , 为 了 保持 卷 积 神经 网 络 的 输出 具有 固定 的 维度 , 同时 对 
局 部 特征 进行 综合 , 池 化 算 子 成 为 必需 。 一 般 地 , 最 大 池 化 方法 被 运用 的 最 为 频繁 , 该 方 
法 选择 一 个 向 量 中 的 最 大 值 作为 该 向 量 的 代表 : û = max (w)。 从 而 ,每 个 过 滤器 对 应 一 
个 维度 的 输出 , 工 个 过 滤器 将 对 应 一 个 工 维 的 向 量 。 当然 , 也 可 以 倒 加 多 层 卷 积 算 子 与 
池 化 算 子 , 最 后 再 经 过 一 系列 线性 和 非 线 性 变换 , 得 到 一 个 固定 维度 的 输出 z;， 作 为 句 
子 的 全 局 语义 表示 , 如 图 10.3 所 示 。 
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图 10.3 文档 中 的 句子 表示 与 句子 重要 性 评估 模型 “ 真 ”标签 对 应 的 后 验 概率 即 为 
句子 的 重要 性 
在 给 定 句子 表 示 的 前 提 下 ， 可 采用 多 种 形式 的 序列 标注 算法 。 以 下 介绍 一 种 常用 的 
基于 长 短 时 记忆 网 络 (LSTM) 的 神经 网 络 模型 : 
hi = LSTM (aj, hi-1) (10.11) 
yi = softmax (hi;) (10.12) 
其 中 , hi = LSTM (zi, hi_1) 的 计算 公式 如 下 : 


bi o 

fi ` o w| Ti | 
0; o hi_1 
ĉi tanh 


c = ii O ĉi + fi © Gi- 
h; = 0; © tanh (c;) 
由 公式 〈10.12) 可 知 , 每 个 句子 最 终 将 获得 一 个 属于 “ 真 ”标签 的 后 验 概率 , 这 个 后 
验 概率 将 作为 句子 的 重要 性 得 分 。 

对 于 单 文档 抽取 式 摘要 来 说 , 选择 重要 性 得 分 高 的 句子 可 以 满足 信息 量 的 要 求 , 将 
抽取 的 句子 按照 在 文档 中 出 现 的 顺序 组 成 摘要 ,能够 保证 摘要 的 流畅 性 和 可 读 性 , 而 对 
于 多 文档 摘要 任务 , 如果 每 个 文档 携带 时 间 戳 , 那么 先 根据 同一 文档 中 句子 出 现 的 顺序 ， 
再 按照 多 文档 句子 的 时 间 顺 序 组 成 摘要 , 也 能 够 保证 摘要 具有 较 高 的 可 读 性 [Barzilay et 
al., 2002]。 但 是 ,对 于 缺乏 时 间 戳 的 多 文档 摘要 任务 来 说 ,如 何 优化 摘要 中 句子 的 顺序 
目前 仍然 是 一 个 开放 的 问题 。 
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10.2.2 ”基于 约束 的 摘要 生成 方法 


本 章节 开始 提 到 覆盖 面 广 和 元 余 度 低 是 自动 摘要 的 基本 约束 。 一 般 情 况 下 ,摘要 都 
比较 简短 , 限定 不 超过 KK 个 句子 或 不 多 于 NN 个 词语 (如 一 般 限定 中 文摘 要 的 长 度 不 超 
过 200 个 汉字 )。 因此, 在 这 样 的 约束 条 件 下 最 大 化 覆盖 面 实际 上 等 价 于 最 小 化 元 余 度 。 
常用 的 最 小 化 元 余 度 算 法 来 源 于 最 大 边缘 相关 (maximal marginal relevance, MMR) 的 
思想 [Carbonell and Goldstein, 1998]. MMR 算法 主要 是 面向 查询 相关 的 文档 自动 摘要 
任务 提出 来 的 , 其 计算 公式 如 下 : 

MMR (R, A) = argmax { asim, (si, Q) — (1 — A) max Simo (nsp) (10.13) 

siER\A sjEA 

其 中 , R 表示 所 有 句子 的 集合 ,4 表示 已 经 选择 的 摘要 句子 ，Q 表示 用 户 查询 ，s; 表示 
未 选 句 子 集合 中 的 任意 一 个 句子 ，sj 表示 已 选 句子 集合 中 的 任意 一 个 句子 。Siml (s,Q) 
表示 句子 si 与 用 户 查询 的 相关 性 ，Sims (si, sj) 表示 两 个 句子 si 与 sj 之 间 的 相似 性 ， 入 
是 权衡 相关 度 和 宛 余 度 的 参数 。A 越 大 ， 表 示 越 强调 句子 si 与 用 户 查 询 之 间 的 相关 度 ， 
反之 , 越 强调 元 余 度 。 从 式 (10.13) 可 以 看 出 , 最 大 边缘 相关 算法 的 基本 思想 是 在 未 选 名 
子 集合 RA 中 选择 一 个 与 输入 查询 最 相关 并 且 与 已 选 句 子 最 不 相似 的 句子 , 迭代 执行 
该 操作 , 直至 句子 数目 或 单词 数目 达到 上 限 。 

在 通用 的 文档 自动 摘要 任务 中 , 采用 的 元 余 度 计算 方法 都 类 似 于 最 大 边缘 相关 算 
法 。 一 般 地 ， 可 以 采用 如 下 计算 公式 : 

MMR’ (R, A) = argmax {score (si) — (1 — A) max Sim (s;, sj) - Score (s) } (10.14) 
siER\A sjEA 
JEH, Score (si) 表示 句子 si 的 重要 性 得 分 , 即 每 次 迭代 选择 重要 性 得 分 最 高 但 与 已 选 
摘要 结果 最 不 相似 的 句子 。 如 果 采 用 基于 图 的 方法 计算 句子 的 重要 性 得 分 , 那么 ,可 以 
在 消除 元 余 度 时 充分 利用 图 的 结构 信息 。 下 面 以 基于 图 的 算法 为 例 , 介绍 给 定 句子 重要 
性 得 分 后 最 终 的 摘要 生成 方法 : 

@ 初 始 化 两 个 集合 A =Ø M B = {sili =1, ,n}, 分 别 表示 摘要 句子 集合 和 未 选 
句子 集合 ; 初始 化 每 个 句子 的 重要 性 和 宛 余 度 的 综合 得 分 (开始 时 元 余 度 得 分 未 知 ， 综 
合 得 分 只 包含 句子 的 重要 性 得 分 ), RS (si) = Score (sj), i= 1,- ,ne 

加 根据 RS (si) 的 结果 对 集合 B 按照 得 分 从 高 到 底 进 行 排序 

图 假设 si 是 得 分 最 高 的 句子 , 即 B 中 排序 第 一 的 句子 , 将 si 从 B PER, 并 加 入 
到 4 中 , 然后 按照 下 面 的 公式 更 新 B 中 剩余 每 个 句子 的 综合 得 分 : 


RS (s;) = RS (s;) — ASim (s;, 5) - Score (s;) 
四 返回 第 @ 步 , 进行 下 一 步 迭 代 计算 , 直至 集合 B 为 空 , 或 者 句子 集合 4 达到 句子 
数目 的 要 求 ， 结 束 算 法 。 
抽取 式 自动 摘要 方法 以 句子 为 基本 单元 , 算法 简单 直观 , 并 且 能 够 保持 句子 的 流畅 
性 和 可 读 性 。 但是, 抽取 式 方 法 面临 一 些 难 以 克服 的 问题 , 例如 摘要 的 窗 盖 度 与 摘要 长 
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度 之 间 存 在 不 可 调和 的 矛盾 。 摘 要 的 长 度 约束 一 般 以 最 终 摘要 包含 的 词语 数目 或 者 句子 
数目 体现 。 长 度 约束 限定 了 抽取 句子 的 数量 , 但 是 摘要 履 盖 度 的 要 求 则 希望 抽取 更 多 的 
信息 , 也 即 抽取 更 多 的 句子 。 如 果 被 选 为 摘要 的 句子 虽然 重要 却 包含 过 多 的 次 要 信息 ， 
导致 甸子 见长 , 将 直接 影响 其 他 重要 的 句子 成 为 摘要 内 容 。 


10.3 ”压缩 式 自动 摘要 方法 


压缩 式 自动 摘要 在 一 定 程度 上 可 以 缓解 抽取 式 摘要 的 问题 。 其 基本 思路 是 : 对 句子 
进行 压缩 , 保留 重要 的 句子 成 分 , 删除 无 关 紧要 的 成 分 , 使 得 最 终 的 摘要 在 固定 长 度 的 
范围 内 包含 更 多 的 句子 ,以 提升 摘要 的 获 盖 度 。 在 这 种 方法 中 如 何 压缩 句子 是 其 中 的 
关键 。 


10.3.1 “句子 讨 缩 方法 


句子 压缩 (sentence compression) 任务 可 以 被 定义 为 一 个 删 词 问题 [Knight and 
Marcu, 2002]: 删除 句子 中 不 重要 的 词语 , 形成 该 句子 的 一 个 压缩 式 表达 。 该 任务 可 以 形 
式 化 为 , 给 定 句 子 s = wo…wi…wn-1, 目标 是 找到 s 的 一 个 子 串 t = wy wh why 
作为 该 句子 的 一 个 压缩 表达 , FR t 可 能 是 连续 的 句子 , 也 可 能 是 不 连续 的 , m< ne W 
K w, = wir 则 Yoy>j3uor>ipay = we， 即 压 缩 结果 与 原 句 子 保持 相同 的 词 序 。 

实现 句子 的 压缩 可 以 采用 简单 的 无 监督 方法 , 也 可 以 利用 数据 驱动 的 有 监督 方法 。 
无 监督 方法 一 般 依赖 于 人 工 设 计 的 规则 , 基于 句法 分 析 树 的 压缩 方法 较为 常用 [Turner 
and Charniak, 2005]。 对 于 任意 一 个 句子 , 该 方法 首先 需要 得 到 句子 对 应 的 短语 结构 树 ， 
然后 在 树 上 根据 规则 删除 不 重要 的 子 树 ， 剩 余 的 树 结构 组 成 压缩 句子 。 人 工 设计 的 规则 
通常 包括 : 去 掉 介 词 短 语 子 树 、 删 除 时 间 短 语 子 树 和 从 句 等 。 如 图 10.4 所 示 的 例子 , 从 
左边 的 短语 结构 树 中 删除 介词 短语 和 表示 时 间 的 短语 之 后 , 得 到 右边 的 树 结构 , 根据 该 
删 减 后 的 树 结构 可 以 得 到 压缩 后 的 句子 : “两 国 首 脑 举行 了 电话 会 议 ”。 


IP 
NP Ve] NP VP 
NP] [NP PP VP > NP ] [NP VP 
ee ae 
首脑 ||_P NP VV AS NP 二 首脑 ] [vv] [AS NP 
于 ] EX) [举行 | 了 DNP NP A) C] [NE 
NP DEC] [NP] [NP NP] [NE 
NP] [NE EA AX 电话 ] AN 
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图 10.4 基于 短语 结构 树 的 句子 压缩 方法 示意 图 


10.3 压缩 式 自动 摘要 方法 239 


以 下 分 别 从 生成 式 模型 和 判别 式 模 型 两 个 角度 介绍 有 监督 的 句子 压缩 方法 [Knight 
and Marcu, 2002]. 

大 规模 原始 句子 和 对 应 的 压缩 结果 构成 的 平行 句 对 {sktr} 是 有 监督 句子 压缩 
方法 实现 的 基础 。 下 面 是 部 分 平行 句 对 样 例 (S; 是 原始 句子 , T; 是 压缩 后 的 句子 ): 


Si: 两 国 首脑 于 昨天 举行 了 一 个 小 时 的 电话 会 议 

Ti: 两 国 首脑 举行 了 电话 会 议 

Sa: 孩子 们 在 门 前 看 着 RAE Be 星星 

To: 孩子 们 数 星星 

Sa: 外 交 部 对 该 事件 未 发 表 任何 意见 

Ta: 外 交 部 未 发 表 意见 

需要 说 明 的 是 , 压缩 后 的 结果 只 是 原始 句子 的 一 个 ( 非 连 续 ) 子 序列 。 相关 研究 中 使 
用 较 多 的 是 英语 数据 , 如 Zi 人 Davis 语 料 和 基于 英国 广播 新 闻 人 工 构造 的 对 照 语 料 !。 数 
据 规模 相对 较 小 , 一 般 在 1000~1500 句 对 。 

以 下 介绍 两 种 有 监督 的 句子 压缩 方法 。 


1. 基于 噪声 信道 模型 的 句子 压缩 方法 


基于 噪声 信道 模型 的 句子 压缩 方法 假设 原始 句子 s 是 由 压缩 句子 上 经 过 添加 附加 信 
息 后 生成 的 。 给 定 原始 长 句子 s, 目标 是 寻找 最 佳 的 压缩 句子 to 使 得 后 验 概率 P (t|s) 最 
Ko 利用 贝 叶 斯 准则 将 后 验 概率 展开 : 

_ P(t) -P (slt) 
Pls) = “By 


由 于 原始 句子 s 是 确定 的 ,因此 在 优化 过 程 中 上 面 公式 右边 的 分 母 P (s) 可 忽略 不 
计 , 在 寻找 最 佳 压缩 句子 t 时 等 价 于 : 


t* = argmax P (t) - P (s|t) 
t 


其 中 , P (slt) 称 为 信道 模型 (channel model) ， 表 示 由 压缩 句子 土生 成 原始 句子 s 的 概 
率 ; P(t) JAA (source model) , 表示 压 缩 句 子 t 符合 文法 的 概率 。 

典型 的 处 理 方式 是 , 采用 等 价 的 句法 分 析 树 分 别 代 蔡 原始 句子 和 压缩 后 的 句子 。 如 
图 10.5 所 示 , 假设 是 原始 句子 s 在 噪声 信道 模型 下 得 到 的 最 优 压缩 句子 , 也 就 是 说 ， 
原始 句子 s 可 由 噪声 信道 模型 的 观察 输出 二 推断 出 来 。 那么 , 信 源 模型 和 信道 模型 的 概 
率 计算 方法 如 下 : 

(1) 信 源 模型 概率 

信 源 模型 用 于 度量 压缩 后 句子 如 符合 文法 的 程度 ,可 采用 概率 上 下 文 无 关 文法 
(probablistic context-free grammar, PCFG) 的 推导 概率 和 词 串 的 二 元 文法 语言 模型 概 


1http://jamesclarke.net/research/resources/ 
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图 10.5 原始 句子 对 应 的 句法 分 析 树 与 噪声 信道 模型 的 输出 结果 示例 
率 计算 获得 : 


Pros (t1) = Pets (TOP + G|TOP) - Pets (G + HA|G) + Pegg (A > CDA) - 
Potg (H > alH) + Poig (C — b|C) + Pog (D > e|D) + Phigram (a|EOS) - 
Pyigram (dla) - Pyigram (elb) + Pyigram (EOS|e) 

其 中 , Re (TOP > G|TOP) 表示 由 句子 节点 TOP 生成 节点 G 的 概率 , Pog (G— HA|G) 
表示 由 节点 G 利用 上 下 文 无 关 文法 生成 两 个 节点 HA 的 概率 ，Poigram (bla) 表示 叶子 节 
点 ab 之 间 的 二 元 语言 模型 概率 。 公 式 中 的 其 他 变量 具有 类 似 的 含义 。 

(2) 信道 模型 概率 

信道 模型 概率 包含 两 部 分 : 一 部 分 是 压缩 句子 的 树 结构 th 扩展 为 原始 句子 s 的 树 
结构 概率 ; 另 一 部 分 是 原始 句子 的 树 结构 中 新 增 子 树 的 上 下 文 无 关 文 法 的 推导 概率 : 

Poxpand tree (8|t1) = Paxp (C + HA|G ~ HA) -Pap (A + CBD|A = CD) - 
Peg (B > QR|B) + Postg (Q > ZIQ) + Peg (Z > c|Z) - 
Pasg (R > d| R) 

其 中 Pap (G 一 HA|G > HA) All Paxp (A > CBD|A 一 CD) 分 别 表示 二 又 树 结构 G 一 
HA 保持 不 变 的 概率 和 二 叉 树 结构 4 一 CD 扩展 为 三 叉 树 结构 4 一 CBD 的 概率 。 
新 增加 的 节点 B 通过 四 个 步骤 生成 一 棵 子 树 : 四 首先 通过 上 下 文 无 关 文 法 互 一 QR 
生成 两 个 节点 @ 和 R; 回 新 节点 Q 进一步 生成 节点 Z; 图 节点 2 最 终生 成 终结 符 
c 图 节点 R 直接 生成 终结 符 do Pug (B 一 QR|B). Peg (Q 一 ZIQ) Pag (Z 一 c|Z) 和 
Pasg (R 一 d|R) 分 别 度量 每 个 步骤 的 生成 概率 。 

(3) 选择 最 佳 压 缩 句 子 

根据 信 源 模型 概率 和 信道 模型 概率 的 定义 , 最 佳 压 缩 句 子 石 的 后 验 概率 可 通过 下 面 
的 公式 计算 : 


4 Pros (i) Poona eli 
Prompress tre (t118) tree (t1) T expand-t (slt) 
Free (5) 
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在 实际 应 用 中 , 选择 后 验 概 率 最 大 的 压缩 句子 。 对 于 两 个 候选 的 压缩 句子 树 二 和 
ty, WR Prompress.tre (t1|5) > Poompress.tre (ta|s), 那么 选择 石 。 

(4) 模型 参数 训练 

从 信 源 模型 和 信道 模型 的 概率 计算 公式 可 以 看 出 ， 噪 声 信道 模型 的 参数 分 为 三 
K: @@ 上 下 文 无 关 文 法 的 规则 推导 概率 , 如 Pog (G 一 HAIG): @ 树 结构 扩展 概率 ， 如 
Pap (A 一 CBD|A > CD); @ 二 元 文法 的 语言 模型 概率 , 如 Pbigram (bla)。 

为 了 估计 上 述 三 类 概率 , 需要 将 训练 数据 { (se, te) Hy 进行 句法 分 析 ， 获得 原始 句 
子 和 压缩 句子 的 树 结构 。 对 于 @ 类 概率 , 可 以 分 别 在 原始 句子 树 结构 和 压缩 句子 树 结构 
中 利用 最 大 似 然 估 计 获 得 上 下 文 无 关 文 法 的 规则 推导 概率 。 例如 , 若 G 一 HA 出 现 了 
20, G HILT 100 次 , 那么 Re (G 一 HA|G) = 0.2。 

对 于 @ 类 概率 , 需要 首先 对 (s,t) 的 树 结构 进行 节点 对 齐 , 然后 采用 最 大 似 然 估计 方 
法 计算 树 结构 的 扩展 概率 。 例如 , 若 (4 一 CD, 4 一 CBD) 同时 出 现 了 10 次 , 4 一 CD 
出 现 了 100 次 , 那么 Pap (A > CBD|A 一 CD) = 0.1。 对 于 @ 类 语言 模型 概率 , 可 以 简 
单 地 依据 词 串 统计 二 元 文法 的 概率 。 

(5) 模型 解码 

对 于 原始 句子 s 如 果 对 应 的 树 结构 具有 n 个 孩子 节点 。 在 句子 压缩 过 程 中 , 每 个 
节点 都 存在 两 个 选择 : 删除 或 保留 。 因此 , 在 压缩 原始 句子 s 时 存在 (2" 一 1) 种 选择 。 所 
有 的 压缩 候选 句子 可 以 存储 在 一 个 共享 森林 中 , 然后 采用 动态 规划 算法 搜索 最 佳 的 压缩 
候选 。 

由 于 上 述 计 算 公 式 中 需要 对 所 有 概率 进行 累积 ,压缩 候选 句子 越 长 , 计算 出 来 的 后 
验 概率 值 越 小 , 因此 ， 如果 不 做 调整 电 声 信道 模型 会 倾向 于 选择 较 短 的 压缩 候选 句子 。 为 


了 克服 这 一 问题 , 可 以 用 长 度 对 后 验 概率 进行 归 一 化 处 理 : ae ls) Tength(ts) . 


2. 基于 决策 的 句子 压缩 方法 


基于 决策 的 句子 压缩 方法 从 结构 树 改写 的 角度 对 句子 进行 处 理 。 对 于 图 10.5 给 出 
的 例子 , 该 方法 的 目标 是 将 原始 句子 s 对 应 的 结构 树 改写 为 压缩 句子 to 对 应 的 结构 树 。 
该 改写 过 程 可 通过 一 系列 “ 移 进 -规约 -删除 ”动作 实现 (类似 于 基于 “ 移 进 -规约 ”的 句法 
分 析 方 法 )。 

在 该 算法 中 , Be (ST) 和 输入 列表 (IList) 是 两 个 核心 的 数据 结构 。 栈 用 于 存储 目前 
为 止 得 到 的 压缩 句子 对 应 的 树 结构 片段 , 算法 开始 时 栈 为 空 。 输入 列表 存储 原始 句子 对 
应 的 词语 及 其 句法 结构 标签 , 如 图 10.6 所 示 , 按 顺 序 输入 每 个 词语 和 该 词语 对 应 的 所 有 
句法 标签 。 值 得 注意 的 是 , 每 个 句法 标签 仅 赋予 该 句法 标签 覆盖 子 树 的 最 左 端 的 词语 。 
在 该 例 中 原始 句子 s 对 应 的 结构 树 的 根 节点 是 G, 因此 G 仅 赋予 句子 的 首 词 a, 同 理 五 
也 赋予 首 词 a, 从 而 与 词语 a 相关 联 的 句法 标签 包括 G 和 He 在 执行 删除 动作 时 ， 如 果 
要 删除 词语 a, 那么 能 够 保证 与 词语 a 相关 的 整 棵 子 树 都 被 删除 掉 。 
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栈 (ST) 输入 列表 (IList) BST) 输入 列表 (IList) 
B 
G A Qo D 步骤 @ 
H A 5RD- H K |ZRe DROP B 
a C38 | cd 
a 
Bg 2 SHIFT; 
oe ASSIGNTYPE H A 步骤 O-@ 
ed D 
7 人 o SHIFT; 
a b ASSIGNTYPE D 
4 步骤 @-@ 
CB 
H |b @Q D SHIFT; E 步骤 @ 
| ZR e ASSIGNTYPE K KD 
a ed | l | REDUCE to G 
a e 
B PRO G 
H KQ D 
| ||1zRe。 REDUCE to F “| 
a bled 7 人 E 
a b 


图 10.6 基于 决策 的 句子 压缩 方法 示例 


句法 结构 树 的 改写 过 程 由 如 下 4 类 动作 完成 : 

e SHIFT: 该 动作 将 输入 列表 IList 中 的 第 一 个 词语 移入 栈 ST 中 ; 

e REDUCE: 将 栈 ST 中 顶部 的 个 树 片 段 弹出 , 合并 为 一 棵 新 的 子 树 , 并 且 将 新 
子 树 移入 ST 中 ; 

© DROP: 从 输入 列表 IList 中 删除 句法 标签 对 应 的 完整 子 树 ; 

e ASSIGNTYPE: 赋予 栈 ST 中 的 顶部 子 树 一 个 新 的 根 节点 标签 , 一 般 用 于 改写 一 
个 词语 的 词性 标签 。 

图 10.6 展示 了 如 何 利 用 上 述 4 类 动作 通过 9 个 步骤 将 原始 句子 s 改写 为 压缩 句子 
ty 的 详细 过 程 。 每 个 步骤 执行 哪 种 动作 ,是 基于 决策 的 句子 压缩 模型 的 关键 ， 可 视 为 该 
模型 需要 学 习 的 参数 。 

依据 训练 数据 集 {(sk; 妇 )} 筷 ;， 每 个 原始 句子 的 树 结构 与 压缩 句子 的 树 结构 形成 一 个 
树 对 , 从 中 可 以 统计 出 4 类 动作 出 现 的 次 数 和 上 下 文 环境 , 然后 利用 上 下 文 环境 作为 输入 ， 
具体 动作 作为 输出 ， 训 练 一 个 动作 分 类 器 。 例 如 ， 从 上 下 文中 挖 气动 作 和 树 结构 相关 的 特 
征 , 采用 决策 树 (如 C4.5 算法 )、 最 大 焙 或 支持 向 量 机 等 分 类 算法 训练 动作 的 执行 参数 。 


10.3.2 ”基于 句子 压缩 的 自动 摘要 方法 


基于 句子 压缩 的 自动 摘要 方法 主要 包含 两 个 核心 算法 : 候选 句子 选择 算法 和 句子 压 
缩 算法 。 前面 已 经 介绍 了 句子 的 重要 性 评估 算法 和 句子 压缩 算法 ,以 下 介绍 如 何 结合 六 
两 种 算法 获得 文本 摘要 。 
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通常 情况 下 , 考虑 这 两 种 算法 的 如 下 三 种 结合 方式 : @ 先 选择 后 压缩 的 方法 ,首先 
依据 重要 性 得 分 抽取 候选 摘要 句子 ,然后 利用 句子 压缩 算法 对 候选 摘要 句子 进行 精简 ， 
在 满足 摘要 长 度 约束 的 前 提 下 , 展示 更 多 的 摘要 信息 ; @ 先 压缩 后 选择 的 方法 ,首先 采 
用 句子 压缩 算法 对 文档 或 文档 集合 中 的 所 有 人 句子 进行 简化 , 然后 采用 抽取 式 摘要 算法 选 
择 摘要 句子 ; @ 同 时 进行 句子 选择 和 句子 压缩 的 一 体 化 处 理 , 设计 统一 的 算法 框架 对 句 
子 选择 和 压缩 同时 优化 , 输出 精简 后 的 摘要 句子 。 

相对 来 说 , 第 一 种 方法 效率 最 高 , 但 是 候选 摘要 句子 的 限制 和 句子 压缩 的 唯一 结果 
输出 影响 了 最 终 的 摘要 质量 。 后 两 种 方法 以 摘要 质量 为 优化 目标 , 需要 对 每 个 句子 进行 
压缩 , 牺牲 了 文本 摘要 系统 的 执行 效率 。 那么, 如 何 兼顾 效率 和 质量 这 两 个 方面 ， 就 成 为 
基于 句子 压缩 的 文本 摘要 方法 研究 的 核心 问题 。 

以 下 介绍 一 种 兼顾 第 @ 种 方法 的 效率 和 第 @ 种 方法 的 质量 的 压缩 式 摘要 方法 [Li et 
al., 2013a]。 该 方法 的 基本 思路 是 : 利用 抽取 式 摘要 方法 获得 履 盖 面 较 大 的 候选 摘要 句子 
集合 从 ,然后 为 集合 Ve 中 的 每 个 句子 利用 句子 压缩 方法 生成 天 -Best 个 压缩 句子 候选 ， 
最 后 采用 统一 的 优化 框架 在 天 -Best 个 候选 句子 中 选择 最 佳 的 摘要 句子 。 可 采用 整数 线 
性 规划 算法 作为 统一 的 优化 框架 , 优化 目标 函数 为 : 


max Y wic +Y yY 55% (10.15) 
i j k 
st. >》 sx <1 Vi (A) 
k 
Sjk OCCijk <å (B) 
> Sjk OCCi_jk 2G (C) 
jk 
> Lisi <L (D) 
jk 
c; € {0,1} Vi (E) 
Sjk € {0,1} Yj, k (F) 


wi 表示 第 i 个 概念 的 权重 , J HL FTL AB cs FS a ats 8 Re ag BE ot PB BBC H 
二 元 组 构成 , 例如 “两 国 -首脑 ” 和“ 电话- 会议” 分别 是 两 个 概念 。 有 多 种 方式 计算 概念 
的 权重 wi WHR TFIDE Hiko vy 表示 压缩 句子 的 权重 ,由 对 应 原始 句子 的 权重 代 
替 ,可 通过 抽取 式 摘要 方法 中 句子 的 重要 性 度量 计算 获得 。c; 和 sj 是 二 值 变 量 , 表示 
是 否 选择 某 个 概念 或 句子 , WA sj = 1, 说明 第 j 个 句子 的 第 kk 个 压缩 候选 被 选中 。 
式 (10.15) 是 目标 优化 函数 ， 最 大 化 概念 的 履 盖 度 和 句子 的 重要 性 得 分 ; 式 (A) ~ CF) 
都 是 约束 条 件 ， 其 中 , CA) 表示 对 于 集合 V。 中 任意 一 个 原始 句子 , 最 多 只 能 选择 一 个 压 
缩 候选 结果 。Occi jn 表示 第 i 个 概念 是 否 在 句子 sjx 中 出 现 。 不 等 式 CB) 和 (C) 对 概 
念 和 句子 进行 了 联合 约束 , CD) 是 最 终 摘 要 的 长 度 约束 。 

通过 整数 线性 规划 求解 便 可 以 得 到 最 终 的 满足 各 种 约束 的 文本 摘要 结果 ， 从 而 兼顾 
了 效率 和 质量 两 个 方面 。 
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压缩 式 自动 摘要 能 够 去 除 句子 中 的 次 要 信息 或 者 重复 信息 , 使 得 在 有 限 长 度 的 约束 
下 生成 信息 量 足 、 履 盖 面 广 的 摘要 结果 。 相 比 于 抽取 式 摘 要 方法 , 压缩 式 摘 要 方法 显然 
更 加 合理 。 但 是 ,压缩 式 摘要 方法 仍然 存在 不 足 之 处 : 无 法 将 多 个 相似 且 互 补 的 句子 进 
行 信息 融合 , 最 大 限度 地 删除 元 余 信息 , 保留 更 多 的 重要 信息 。 假设 有 两 个 句子 的 重要 
性 得 分 都 很 高 ， 由 于 两 个 句子 之 间 的 相似 性 , 抽取 式 摘 要 和 压缩 式 摘要 只 会 选择 其 中 的 
一 个 句子 , 从 而 可 能 导致 重要 的 信息 丢失 。 


10.4 生成 式 自动 摘要 


生成 式 的 自动 摘要 方法 旨 在 模拟 人 类 撰写 摘要 的 过 程 : 文档 理解 一 信息 压缩 一 摘 
要 生成 。 本 节 介 绍 两 种 生成 式 的 自动 摘要 方法 , 分 别 是 基于 信息 融合 的 生成 式 摘要 方法 
和 基于 编码 -解码 的 生成 式 摘要 方法 。 


10.41 ”基于 信息 融合 的 生成 式 摘要 方法 


基于 信息 融合 的 生成 式 摘要 方法 对 抽取 式 摘要 方法 和 压缩 式 摘要 方法 进行 了 继承 
和 发 展 ， 从 概念 和 事实 ! 的 角度 出 发 , 在 思想 上 模拟 人 类 生成 摘要 的 方式 : 人 们 在 阅读 
文本 过 程 中 将 重要 的 概念 和 相关 的 事实 挑选 出 来 ， 然 后 重新 组 织 这 些 概念 和 事实 ， 生 成 
新 的 摘要 句子 。 以 图 10.7 AP, HE “Joes dog” 和 事实 “was chasing a cat”, “in the 
garden” 比 较 重 要 ,因此 将 其 提取 出 来 , 重组 后 得 到 摘要 句子 :“Joe’s dog was chasing 
a cat in the garden”。 这 个 过 程 实际 上 是 对 两 个 句子 进行 信息 融合 后 生成 一 个 新 的 
句子 。 

依据 对 概念 和 事实 的 不 同 定义 方式 , 基于 信息 融合 的 生成 式 摘 要 方法 也 分 为 多 种 。 
如 图 10.7 中 给 出 的 例子 通过 如 下 三 步 实现 自动 摘要 : 采用 深度 语义 分 析 方 法 将 相似 的 
句子 分 析 为 抽象 语义 表示 (abstract meaning representation, AMR) ; @) 将 两 个 AMR 图 
合并 为 一 个 AMR 图 ; @ 利 用 谓词 - 论 元 信息 定义 概念 和 事实 , 基于 核心 论 元 (如 “dog”) 
生成 对 应 的 表述 [Liu et al., 2015a]。 由 于 从 句子 到 抽象 语义 表示 的 自动 分 析 效 果 还 未 能 
达到 令 人 满意 的 程度 , 因此 这 种 方法 还 只 是 一 种 理论 上 的 探讨 。 

下 面 介绍 一 种 基于 句法 分 析 树 的 信息 融合 技术 [Bing et al., 2015]。 不同 于 上 述 基于 
抽象 语义 表示 的 方法 , 该 方法 利用 句法 结构 树 定义 概念 和 事实 , 计算 概念 和 事实 的 重要 
性 , 度量 概念 和 事实 之 间 的 兼容 性 ， 并 最 终 组 合 概念 和 事实 形成 摘要 句子 。 


1. 概念 和 事实 的 定义 


概念 和 事实 基于 句法 分 析 树 确定 。 概括 地 讲 , 概念 由 名 词 短 语 CNP) 构成 , 而 事实 
由 动词 短语 (VP) 构成。 由 于 一 棵 句法 分 析 树 往往 层次 很 深 , 以 NP 和 VP 为 根 节点 的 
子 树 也 很 多 , 因此 不 能 将 每 个 NP 或 VP 短语 都 作为 概念 或 事实 的 候选 。 


1 概念 和 事实 有 不 同 的 定义 方式 , 一 般 来 讲 概念 对 应 实体 (人 、 物 、 机 构 等 ), 事实 对 应 动作 。 
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句子 1: Isaw Joe's dog, which was running in the garden 


句子 2 : The dog was chasing a cat 
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dog cat 
location 
F. ARGO location 
í DESC dog ) (Cgarden ) cat 

/ name, X 
OOo 1 
name 1 
1 
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\ f 
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一 > 摘要 句子 : Joe's dog was chasing a cat in the garden 
图 10.7 基于 抽象 语义 表示 AMP) 的 生成 式 摘要 方法 示例 


对 于 哪些 NP/VP 短语 可 作为 概念 /事实 的 候选 , 可 以 给 出 如 下 规定 1: 


(1) 如 果 NP/VP 是 表示 完整 句子 或 子 句 节 点 (如 图 10.8 中 的 S 和 SBAR 等 节点 ) 
的 儿子 节点 , 则 被 视 为 概念 /事实 候选 , 用 S CNP) 和 S (VP) 表示 ; 


(2) 如 果 NP/VP 的 父 节点 是 S CNP) (S CVP) ), 则 视 其 为 概念 /事实 候选 , 记 为 
S (NP (NP) ) 和 S (VP (VP) ); 


(3) 如 果 NP/VP 的 父 节点 是 S CNP (NP) ) (S (VP CVP) ) ), 则 视 NP/VP 为 概 
念 /事实 候选 。 

其 余 的 NP 和 VP 短语 一 般 不 能 完整 地 表示 一 个 概念 或 事实 , 所 以 不 做 考虑 。 需 要 
说 明 的 是 ， 有 些 节点 的 儿子 节点 表示 指 代 ,如 图 10.8 (a) 中 的 WHNP 节点 , 实际 上 指 
代 其 左 侧 的 NP 短语 , 这 时 WHNP 节点 所 指 代 的 NP 短语 也 作为 概念 候选 。 从 图 10.8 
中 可 以 抽取 出 的 候选 概念 有 :“I”、“Joe’s dog” il “the dog”， 候 选 事实 有 :“saw Joe’s 


” a » a 


dog which was running in the garden”, “was running in the garden” , “running in the 


” 6 


garden”, “was chasing a cat” fil “chasing a cat”. 


给 定 文档 或 文档 集合 ,对 每 个 句子 进行 句法 分 析 后 获得 该 句子 的 句法 分 析 树 , 依据 
上 述 定义 可 以 抽取 出 所 有 候选 概念 和 事实 的 集合 。 


1 实际 应 用 中 可 以 根据 具体 需求 适当 地 扩大 或 者 收缩 概念 和 事实 的 候选 范围 。 
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句子 1: Isaw Joe’s dog, which was running in the garden 


r= 句子 2 : The dog was chasing a cat 
ROOT nor 
j s peN 
NP VP 
PRP VBD NP DT NN VBD VP 
— | | es ee ee Pot of YN 
I saw NP K SBAR the dog was VBG NP 
NP NN WNP | chasing DT NN 
NNP ile dog wp" 人 a cat 
Joe's which VBD VP (b) 
加 
was VBG PP 
(a) running IN NP 
ROOT 
l in DT NN 
Lo An | | 
NP VP the garden 
NP yy VBD VP 
Di ms dog was VBG NP 
g : | 
© Joe 8 chasing DT NN 
(c) a cat 


L 摘要 句子 : Joe's dog was chasing a cat 


图 10.8 ”基于 句法 分 析 树 的 生成 式 摘要 方法 


2. 概念 和 事实 的 重要 性 评估 


在 抽取 式 摘要 方法 中 已 经 给 出 了 多 种 句子 重要 性 评估 算法 , 这 些 算 法 都 可 以 用 来 计 
算 NP 和 VP 短语 的 重要 性 得 分 。 例 如, 基于 文档 位 置 的 方法 , 可 以 采用 TFIDF 算法 以 
及 基于 图 的 算法 等 , 也 可 以 采用 基于 命名 实体 的 方法 评估 NP 和 VP 短语 的 重要 性 。 
于 人 名 、 地 名 和 机 构 名 等 命名 实体 往往 蕴含 了 文本 的 关键 信息 ， 因 此 一 个 概念 或 
者 事实 所 包含 的 命名 实体 数目 能 够 在 很 大 程度 上 反映 其 重要 性 。 因此, 可 以 通过 下 面 的 
简单 公式 计算 NP 短语 的 重要 性 : 


count (NENP) 


S NP) = 
a cia count (NEdoc) 


(10.16) 


其 中 , count (NENP) 表示 NP 短语 中 含有 的 命名 实体 数目 , count (NEaoc) 表示 NP 短语 
所 在 的 文档 中 含有 的 命名 实体 总 数目 。 

类 似 地 ，VP 短语 的 重要 性 也 可 以 按 这 种 方式 计算 出 来 。 各 种 类 型 (文档 位 
置 、TFIDF、 图 算法 和 命名 实体 等 ) 的 重要 性 得 分 可 通过 线性 加 权 的 方式 进行 融合 ， 
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从 而 获得 概念 和 事实 更 加 准确 的 重要 性 得 分 。 


3. 概念 与 事实 的 兼容 性 定义 


在 基于 信息 融合 的 摘要 方法 中 , 摘要 句子 将 通过 NP 短语 (概念 ) 和 VP 短语 ( 事 
K) 组 合 得 到 。 在 组 合 之 前 必须 解决 概念 与 事实 的 兼容 性 问题 , 即 哪些 NP 短语 可 以 与 
哪些 VP 短语 进行 组 合 ， 以 构成 新 的 句子 。 显 然 , 如 果 NP; 短语 与 VP; 短语 来 自 于 同一 
个 句子 节点 8, 那么 这 两 个 短语 自然 可 以 组 合 , 但 是 这 种 方式 只 能 得 到 原始 句子 , 而 无 
法 产生 新 的 句子 。 因 此 需要 定义 更 加 宽松 的 兼容 性 约束 : 如 果 NP; 与 NP; 兼容 ,那么 
NP; 短语 与 VP; 短语 可 以 组 合 ; 如 果 VP; 与 VP; 兼容 , 那么 NP; 短语 与 VP; 短语 也 
可 以 组 合 。 下 面 介绍 如 何 确定 任意 两 个 NP; A NP) (或 VP; 和 VP;) 之 间 是 否 兼容 。 
于 很 多 NP 短语 由 实体 构成 , 因此 判断 两 个 名 词 短语 NP; 和 NP; 是 否 兼容 , 可 
通过 判别 NP; 和 NP; 是 否 指 代 同 一 个 实体 实现 。 首先 , 针对 文档 或 文档 集合 ,可 利用 
共 指 消解 技术 ! 将 文档 中 提 到 的 所 有 NP 实体 进行 聚 类 , 那么 同一 个 聚 类 中 的 任意 两 个 
NP 短语 将 相互 兼容 。 

VP 短语 的 变化 更 加 丰富 , 可 以 通过 词语 、 词组 、 命名 实体 等 语言 单元 的 共 现 程度 判 
别 两 个 动词 短语 VP; 和 VP; 是 否 兼 容 。 具体 地 ,可 采用 Jaccard 指数 (Jaccard index) 
计算 两 个 动词 短语 VP; Al VP; 是 否 兼容 : 


|Setvp, N Setvp, | 


(10.17) 
|Setvs, U Setvp, | 


J (VP;,VP;) = 
其 中 ,Setvp,Setvp, 分 别 表示 动词 短语 VP; 和 VP; 中 含有 的 词语 、 二 元 词组 和 命名 实体 
的 集合 。 上 述 公式 可 计算 出 VP; 和 VP; 中 共 现 的 语言 单元 占 所 有 语言 单元 的 比例 。 如 
果 该 比例 大 于 某 个 阅 值 ， 则 认为 动词 短语 VP; AVP; 是 兼容 的 。 


4. 基于 概念 和 事实 的 摘要 生成 


在 概念 与 事实 的 兼容 性 约束 前 提 下 , 摘要 生成 的 目标 是 从 所 有 名 词 短语 NP (概念) 
和 动词 短语 VP (事实 ) 的 候选 集合 中 搜索 一 组 NP 短语 和 VP 短语 , 使 得 重要 性 得 分 最 
高 。 形式 化 地 , 该 优化 过 程 可 用 整数 线性 规划 建 模 , 其 目标 函数 定义 为 : 


max J asi — Dai (SP + Sf) RY +9 HST — Pi (SY + SY) RY (10.18) 
i i<j i i<j 

其 中 ,aa AB; 的 取 值 为 0 或 1, 分 别 表示 是 否 选择 名 词 短语 NP; 和 动词 短语 VPi; SN 

和 SY 分 别 表示 NP; 和 VP; 的 重要 性 得 分 。aij € {0,1}，B5 € {0,1}, 分 别 表示 名 词 短 

语 NP; 和 NPj、 动 词 短语 VP; 和 VP; 是 否 同时 出 现在 最 终 的 摘要 中 ; RY 与 RY 分 别 

表示 NP; 与 NP;、VP; 和 VP; 的 相似 度 , WR NP; ANP; 是 共 指 关系 , 则 RY 二 1, 其 

他 情形 通过 上 述 Jaccard 指数 计算 。 


1 例如 , 针对 英文 可 采用 斯 坦 福 大 学 的 开源 工具 进行 共 指 消解 : https:/ /nlp.stanford.edu/projects/coref.shtml 
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通过 上 述 目标 函数 ,利用 第 一 项 和 第 三 项 最 大 化 所 选 名 词 短 语 和 动词 短语 的 重要 性 
得 分 ， 并 利用 第 二 项 和 第 四 项 惩罚 相似 短语 的 选择 。 在 优化 上 述 目标 函数 的 同时 ， 需 要 
保证 概念 与 事实 的 兼容 性 约束 以 及 其 他 约束 。 

为 了 对 兼容 性 约束 进行 建 模 ， 引 入 一 个 二 值 变量 ?5， 如 果 NP; AVP; EAE, W 
Jig = 1。 那么 ,名 词 短语 和 动词 短语 的 兼容 性 约束 为 : 


Vi, j ai > Nij; Vi, X ty > ai (10.19) 
j 
Vj, Yrs = B; (10.20) 
i 


名 词 短语 之 间 的 选择 或 动词 短语 之 间 的 选择 应 遵循 下 面 的 共 现 约束 : 


ay — 0; <0 (10.21) 

ay — aj <0 (10.22) 

Qai +aj— aj <1 (10.23) 

Bij — Bi <0 (10.24) 

Big — Bi <O (10.25) 

Bi + Bj — Biz <1 (10.26) 

上 述 前 两 个 不 等 式 说 明 , 如 果 NP; 和 NP; 在 最 终 摘要 中 共 现 , 则 aij = 1, 那么 这 


两 个 短语 都 应 该 出 现 ; 第 三 个 不 等 式 表明 相反 的 约束 。 类 似 地 ， 后 三 个 不 等 式 适用 于 动 
词 短语 VP, 和 VP; 共 现 约束 。 
当然 , 摘要 的 长 度 约束 必 不 可 少 , 具体 如 下 : 


DUNPi) x ai + SOU (VP) x Bj <L (10.27) 
i Í 


其 中 , L 是 允许 输出 的 摘要 长 度 上 限 , 例如 100 个 词语 ; 1(NP;) 和 1(VP;) 分 别 表 示 名 
词 短 语 NP; 和 动词 短语 VP; 的 长 度 。 

为 了 更 好 地 控制 摘要 输出 , 也 可 以 适当 地 加 入 更 多 的 约束 , 例如 要 求 名 词 短 语 不 能 
是 代词 (你 、 我 、 他 等 ), 或 要 求 概念 ( 即 名词 短 语 ) 的 数目 不 能 超过 某 一 上 限 等 。 整数 
线性 规划 算法 将 在 概念 和 事实 的 候选 集合 中 搜索 一 组 最 佳 子 集 , 不 仅 使 得 重要 性 得 分 最 
高 , 而且 同时 满足 上 述 所 有 约束 。 根据 所 选 子 集 和 兼容 性 变量 xy; 的 取 值 , 便 可 生成 多 个 
新 的 摘要 句子 。 实 验 结果 表明 这 种 基于 信息 融合 的 生成 式 摘要 方法 显著 优 于 抽取 式 摘要 
E, 

但 是 ,基于 信息 融合 的 生成 式 摘要 方法 包含 多 个 级 联 步骤 ， 从 句子 的 语义 要 素 识 别 
和 划分 、 到 语义 要 素 的 重要 性 评估 和 提取 ,再 通过 不 同 来 源 的 语义 要 素 拼接 形成 最 终 的 
摘要 句子 。 整 个 摘要 系统 比较 复杂 ,而且 强烈 依赖 于 句法 分 析 或 语义 分 析 的 质量 ， 因 此 
难以 得 到 广泛 应 用 。 
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10.4.2 ”基于 编码 -解码 的 生成 式 摘要 方法 


人 工 实现 自动 摘要 时 , 通常 在 读 完 一 篇 或 多 篇 文章 之 后 将 整体 内 容 在 大 脑 中 形成 
一 个 抽象 的 语义 表示 〔〈 编 码 )， 然 后 对 该 语义 表示 进行 归纳 和 抽取 , 产生 最 终 的 摘要 文 
本 (解码 )。 

受到 端 到 端的 神经 机 器 翻译 方法 的 启发 ，Rush et al. (2015) 提出 了 一 种 基于 编 
码 -解码 的 生成 式 摘要 方法 。 基 于 编码 -解码 的 生成 式 摘要 方法 首先 在 语义 向 量 空间 内 对 
文本 进行 编码 ， 以 模拟 人 脑 进 行文 本 理解 的 过 程 ,， 然 后 通过 解码 网 络 逐 词 生成 摘要 ， 以 
模拟 人 生成 自然 语言 句子 的 过 程 。 

不 同 于 机 器 翻译 中 的 等 价 语义 转换 , 文本 摘要 是 一 个 语义 压缩 过 程 ， 即 摘要 包含 的 
语义 是 原文 本 语义 的 一 个 子 集 。 虽然 理论 上 可 以 对 文本 和 文档 集合 进行 语义 表示 , 然后 
青 进行 语义 压缩 和 映射 , 最 终 产 生 短文 本 摘要 , 但 是 到 目前 为 止 , 还 未 出 现 有 效 的 方法 
利用 实数 语义 空间 中 的 一 个 向 量 表示 整个 文本 或 文档 集合 的 完整 语义 信息 , 极 高 比例 的 
压缩 映射 方法 也 有 待 于 进一步 研究 。 因此 , 基于 编码 -解码 的 生成 式 摘要 方法 目前 主要 应 
用 于 微 博文 本 摘要 、 句 子 摘要 和 标题 生成 等 任务 。 

下 面 以 句子 摘要 为 例 介 绍 基 于 编码 -解码 的 摘要 生成 方法 。 给 定 一 个 原始 句子 
X = (Zz1, 22,… ,2T,)， 希望 生成 该 句子 的 一 个 精简 版 本 Y = (y y2 yr) £j 和 yi 
分 别 表示 句子 和 和 YY 中 的 第 7 和 i 个 词语 对 应 的 低 维 实数 向 量 表示 , 并 且 要 求 TT < Ty 
即 简化 后 的 句子 长 度 应 小 于 原始 句子 的 长 度 。 不 失 一 般 性 , 可 采用 一 个 双向 的 循环 神 
经 网 络 (BiRNN) 对 原始 句子 X 进行 编码 ,得 到 隐 含 语义 表示 C = (hi, ha, hr); 
另 一 个 循环 神经 网 络 以 原始 句子 的 隐 含 语义 表示 C 为 输入 , 通过 最 大 化 条 件 概 率 
p (yily<i C) 逐 词 生成 简化 的 句子 Y = (yr, yo. yr) 其 中 ,yi = YoY Yie 
以 下 介绍 如 何 利用 编码 器 获得 C， 以 及 如 何 利用 解码 器 计算 条 件 概率 p (yi|y<i, C)。 

如 前 面 所 述 ， 编 码 器 采用 前 向 循环 神经 网 络 和 逆向 循环 神经 网 络 〈 即 双向 循环 神经 
网 络 ) 获得 原始 句子 X 的 隐 含 语义 表示 C。 前 向 循环 神经 网 络 从 左 到 右 逐 词 进行 编码 ， 
Ay AML RPAH LACH R = (Ri, Ra, Rr.) 其 中 ， 


h; =RNN (E-123) (10.28) 


万。 一般 可 被 初始 化 为 所 有 元 素 均 为 0 的 向 量 , RNN 表示 循环 神经 网 络 算 子 , 用 于 将 
两 个 输入 向 量 hja 和 zj 转换 为 一 个 输出 向 量 hj 可 以 采用 门限 单元 GRU (gated 
recurrent unit) 或 长 短 时 记忆 单元 LSTM。 以 GRU 为 例 , 其 计算 方式 如 下 : 


=> ; ; r rp 

F j = Sigmoid (w z+ UR i) (10.29) 

Z; = Sigmoid (Wee, + U*h}-1) (10.30) 
mi; = tanh (Wa; +U (7 © hj-)) (10.31) 


hy =2j0 hy at (1—-2j) om, (10.32) 
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其 中 , 7; AZ; 分 别 表 示 重 置 门 和 更 新 门 ，W", U",，W?, U2, WAU 分 别 表 
示 参 数 矩 阵 ，@ 表示 对 应 元 素 相 乘 。 hy 可 采用 类 似 的 方式 计算 。C 中 的 每 个 元 素 
hy = [Bj hy] 表示 两 个 向 量 的 拼接 。 

解码 器 利用 注意 力 机 制 模 型 动态 计算 条 件 概率 p (yi|y<i, C): 


P(YlY<i,C) = p (Yily<i, Ci) = g (Yi-1, Zi» Ci) (10.33) 


其 中 , g (+) 表示 非 线 性 变换 函数 ,zi 表示 解码 器 第 i 个 时 刻 的 隐 含 表示， 由 前 一 个 时 刻 
的 隐 含 表示 zi;_1、 前 一 个 时 刻 的 输出 yi 和 ci 共同 决定 : 


zi = RNN (2-1, yi-1, ci) (10.34) 
值得 注意 的 是 , c; 并 不 是 C 中 的 第 i 个 元 素 , 而 是 通过 注意 力 机 制 模型 计算 获得 : 
Tz 
ci = >》 ajh; (10.35) 
j=l 


aij 表示 当前 时 刻 的 输出 yi 与 原始 句子 第 了 个 位 置 的 语义 表示 hj 之 间 的 相关 程度 ,由 
以 下 公式 计算 : 


exp lei; 
ij = PU (10.36) 
De 
j=l 
eij = vz tanh (Wazi-1 + Uah;) (10.37) 


HP, Was Ua 和 vg 表示 注意 力 机 制 模型 中 的 参数 矩阵 。 如果 训 练 数据 包含 N 个 〈 原 
始 句子 ， 简 化 句子 ) 样 例 : Dorain = {(Xms¥n) brea» 编码 -解码 模型 将 优化 其 中 的 所 有 权 
BSR, 使 得 训练 数据 Drain 上 的 条 件 对 数 似 然 最 大 : 


N Ty 
LO) = D2 Doe. Xs 0) (10.38) 
图 10.9 给 出 了 基于 上 述 编码 -解码 模型 的 句子 简化 方法 示意 图 。 对 于 原始 句子 “人 
生 应 该 允许 不 成功"， 在 添加 结束 标志 EOS 之 后 利用 双向 循环 神经 网 络 编码 器 可 得 
到 每 个 位 置 对 应 的 隐 合 语义 表示 。 循环 神经 网 络 解码 器 在 每 个 时 刻 首先 利用 注意 力 机 制 
模型 动态 计算 应 该 关注 的 输入 端 上 下 文 ， 如 ca, 然后 依据 解码 器 前 一 时 刻 的 状态 和 输出 
以 及 输入 端的 上 下 文 ca， 预测 当前 时 刻 的 输出 ， 如 第 二 个 时 刻 的 输出 应 该 是 “容忍 "。 该 
过 程 迭代 进行 , 直至 输出 结束 符 BOS， 从 而 获得 简化 后 的 句子 < 人 生 容忍 失败 ”。 
在 编码 -解码 框架 中 编码 器 除了 使 用 双向 循环 神经 网 络 以 外 ， 还 可 以 采用 卷 积 神经 
网 络 等 结构 解 色 器 也 可 以 采用 简单 的 前 僻 神 经 网 络 。 为 了 在 句子 简化 任务 中 考虑 更 多 
的 原始 句子 信息 ， 除 了 原始 句子 以 外 ,也 可 以 利用 输入 词语 的 词性 、 词 频 和 TFIDF 等 信 
息 ， 并 统一 进行 语义 编码 ， 使 得 在 解 玛 过 程 中 可 以 参考 更 加 丰富 的 输入 端 信息 。 
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图 10.9 基于 编码 -解码 的 句子 简化 模型 示意 图 


句子 简化 模型 可 视 为 很 多 其 他 摘要 任务 的 核心 技术 。 例 如 ,可 将 标题 生成 任务 转化 
为 句子 简化 任务 : 输入 是 一 篇 文章 ,输出 是 一 个 简单 的 句子 。 如 果 只 利用 文章 的 第 一 名 
话 (或 前 两 句 话 ) 作为 输入 , 标题 生成 任务 便 转化 为 句子 简化 任务 。 但 是 , 目前 这 种 武断 
截取 的 方法 容易 丢失 重要 信息 ， 并 不 是 一 种 十 分 合理 的 解决 方案 。 对 此 ， 可 以 采用 由 粗 
略 到 精细 的 渐进 式 方法 : 首先 采用 抽取 式 摘要 方法 从 文章 中 选择 1~2 个 重要 的 句子 , 然 
后 再 以 这 些 候选 句子 作为 输入 , 采用 编码 -解码 框架 生成 文章 标题 。 


10.5 “基于 查询 的 自动 摘要 


前 面 介 绍 的 自动 摘要 方法 可 以 说 是 通用 的 ， 只 考虑 了 文档 内 容 本 身 ， 除 了 重 
要 性 之 外 没有 其 他 内 容 方面 的 约束 。 这 种 摘要 技术 一 般 称 为 通用 型 摘要 (generic 
summarization) 。 在 实际 应 用 中 ,人 类 产生 摘要 的 时 候 往往 只 关注 某 个 主题 相关 的 重要 
信息 , 因此 基于 主题 或 基于 查询 的 自动 摘要 方法 逐渐 成 为 研究 热点 。 

基于 查询 的 自动 摘要 方法 可 以 形式 化 地 定义 为 : 给 定 一 个 文档 或 文档 集合 D 以 及 
一 个 以 字符 串 或 句子 表示 的 查询 7, 希望 生成 一 个 与 查询 7 密切 相关 的 摘要 。 从 定义 可 
以 看 出 , 与 通用 型 摘要 相 比 , 基于 查询 的 自动 摘要 方法 不 仅 强调 摘要 的 重要 性 , 同时 还 
强调 摘要 与 查询 的 相关 性 。 下 面 介绍 儿 种 计算 文本 中 的 句子 与 查询 之 间 相关 性 的 方法 。 


10.5.1 ”基于 语言 模型 的 相关 性 计算 方法 


在 研究 早期 , 基于 查询 的 自动 摘要 方法 研究 主要 关注 个 人 简介 (或 人 物 传记 ) 的 摘 
要 生成 。 这 类 系统 处 理 “X 是 谁 ”的 人 物 简介 问题 和 “X 是 什么 ”的 定义 查询 问题 。 下 面 


252 第 10 章 文本 自动 摘要 


以 人 物 简 介 的 摘要 生成 为 例 , 简单 介绍 一 种 基于 语言 模型 的 相关 性 计算 方法 [Biadsy et 
al., 2008]。 

对 于 查询 “X 是 谁 ” 该 方法 通过 设计 一 种 分 类 器 对 文档 或 文档 集 D 中 的 句子 进行 
判别 , 识别 出 属于 人 物 介绍 的 句子 。 首 先 , 采用 无 监督 的 方法 基于 维基 百科 中 的 人 物 简 
介 文 本 训练 出 一 个 信息 抽取 系统 ， 从 中 抽取 出 人 物 简 介 的 模板 。 然后 , 利用 抽取 出 的 模 
板 识别 文档 或 文档 集合 D 中 讲述 人 物 简介 信息 的 句子 so 为 了 判别 抽取 出 的 句子 s 是 否 
是 真正 的 人 物 简介 信息 , 分 别 利用 维基 百科 中 人 物 简介 文本 数据 和 新 闻 文 本 数据 训练 两 
个 语言 模型 Lwixs 和 Loews» 如果 Lwiki (s) > Lnews (5)， 则 认为 句子 s 属于 人 物 简介 信息 ， 
否则 不 属于 。 


10.5.2 ”基于 关键 词语 重合 度 的 相关 性 计算 方法 


下 面 介绍 一 种 面向 开放 查询 的 文本 摘要 方法 。 这 类 方法 主要 通过 计算 文本 句子 中 全 
有 关键 词语 的 数目 来 度量 句子 的 重要 性 , 而 关键 词语 由 查询 语句 和 原始 文档 集合 共同 
决定 。 

对 于 一 个 查询 语句 ,并 不 是 其 中 的 每 个 词语 都 值得 关注 , 通常 的 做 法 是 将 查询 句子 
中 所 有 出 现 的 名 词 、 动 词 、 形 容 词 和 副词 都 归 必 于 查询 关键 词 ,用 集合 WSauery 表示 。 

原始 文档 集合 中 的 关键 词 可 以 通过 计算 主题 标志 词语 WS opie 获得 。 主题 标志 词语 
更 有 可 能 出 现在 当前 文档 中 而 不 是 任何 文本 中 的 词语 , 例如 “国际 空间 站 ”更 可 能 出 现 
在 航空 航天 相关 的 新 闻 报 道中 ,属于 主题 标志 词语 , 而 “今天 ”可 能 会 出 现在 任何 文档 
中 , 不 属于 主题 标志 词语 。 因 此, 句子 中 含有 主题 标志 词语 的 比例 基本 上 可 以 反映 该 句 
子 的 重要 程度 。 主 题 标志 词语 集合 可 以 通过 似 然 率 、 互 信息 或 TFIDF 等 统计 量 确定 。 例 
如 ,计算 文档 集合 中 每 个 词语 的 TEIDE 值 ， 并 对 所 有 的 词语 排序 , 根据 阔 值 选择 前 N 
个 词语 作为 主题 标志 词语 集合 WS copie 

之 后 , 采用 如 下 方法 赋予 文本 中 每 一 个 词语 w 一 个 概率 : 


0.0, if w ¢ WStopic and w ¢ WSguery 
p(w) =4 0.5, if w € WStopic or w E WSguery (10.39) 
1.0, if € WStopic and w E€ WSguery 
对 于 文档 中 的 每 一 个 句子 , 利用 词语 概率 p(w) 的 加 权 平 均值 作为 句子 的 得 分 , 在 
一 定 程度 上 这 个 得 分 不 仅 反 映 了 内 容 的 重要 性 ， 而 且 体现 了 句子 与 查询 之 间 的 相关 程 
度 。 最 后 , 可 以 采用 与 通用 摘要 方法 相同 的 方法 依据 句子 的 重要 性 生成 最 终 的 摘要 。 


10.5.3 ”基于 图 模型 的 相关 性 计算 方法 
正如 前 面 所 述 , 在 抽取 式 的 通用 型 摘要 方法 中 广泛 使 用 的 句子 排序 算法 是 基于 图 的 


PageRank 算法 , 对 该 算法 进行 适当 地 扩展 就 可 以 适应 基于 查询 的 自动 摘要 任务 。 在 基 
于 图 的 PageRank 算法 中 句子 的 重要 性 得 分 由 公式 (10.7) 计算 得 到 ， 下面 再 重复 一 下 
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式 (10.7): os i 
8(Vi) = + 4x XY — 4s (WH) (10.40) 
vev) 2o Wir 
Vi.€adj(V;) 


为 了 适应 基于 用 户 查询 的 摘要 方法 , 文中 的 句子 与 查询 语句 之 间 的 余弦 相似 度 可 作 
为 该 句子 对 用 户 需求 的 相关 度 rel (Vi, 7), 并 设 为 该 句子 Vi 给 定 查询 7 的 初始 相关 性 得 
BS (Vil) = rel(Vi,7)。 对 式 (10.7) 进行 适当 修改 , 便 可 以 迭代 计算 每 个 铅 子 的 重要 性 
和 与 查询 语句 相关 性 的 综合 得 分 : 


S (Vi Wi; 
8 (Vi|r) = (1 — d) x V) gx S Vr) (1041) 
slr) vc) 2o Wik 
VeEadj(Vi) Vp Eadj(V;) 


利用 上 述 公式 计算 每 个 句子 的 得 分 后 ,根据 长 度 约束 和 元 余 度 要 求 就 可 以 产生 最 终 
的 摘要 句子 集合 


10.6 ” 跨 语 言 和 多 语言 自动 摘要 方法 


如 何在 多 语言 的 复杂 环境 下 快速 有 效 地 获取 信息 ,也 是 学 术 界 和 产业 界 共同 关注 的 
问题 。 文 本 自动 摘要 技术 的 研究 也 自然 向 跨 语言 和 多 语言 的 场景 扩展 。 


10.6.1 ” 跨 语 言 自动 摘要 


跨 语 言 自动 摘要 是 以 源 语言 4 的 文档 (或 文档 集合 ) 为 输入 , 输出 以 目标 语言 B 呈 
现 的 文本 摘要 。 下 面 以 源 语言 为 英文 、 creat ei thir 
用 的 方法 。 

在 理想 情况 下 , 如 果 机 器 翻译 的 译文 质量 足够 好 , 跨 语言 摘要 并 不 需要 单独 作为 一 
个 问题 研究 。 在 这 种 情况 下 可 以 首先 产生 英文 摘要 , 然后 借助 机 器 翻译 将 其 转换 成 汉语 
摘要 。 但 是 , 目前 机 器 翻译 的 水 平 还 远 未 达到 令 人 满意 的 程度 。 因 此, 如何 同 时 考虑 内 容 
的 重要 性 和 翻译 质量 的 准确 性 , 成 为 跨 语言 摘要 面临 的 关键 问题 。 

目前 的 跨 语言 摘要 以 抽取 式 方 法 为 主 , 最 简单 的 两 种 方法 都 不 考虑 机 器 翻译 的 译文 
质量 , 一 种 是 先 摘要 后 翻译 的 方法 , 另 一 种 是 先 翻译 后 摘要 的 方法 [Wan et al., 2010]。 
顾名思义 , 先 摘 要 后 翻译 的 方法 是 首先 从 英文 文档 (或 文档 集合 ) 中 抽取 出 摘要 句子 , 然 
后 将 英文 的 摘要 翻译 成 中 文 的 摘要 。 先 翻译 后 摘要 的 方法 则 是 首先 将 英文 文档 (或 文档 
集合 ) 翻译 成 中 文 , 然后 再 从 中 文 译文 中 抽取 出 摘要 句子 。 这 两 种 方法 各 有 利 次 ， 先 摘要 
后 翻译 的 方法 可 以 充分 利用 英文 端 特征 , 但 是 因为 机 器 翻译 质量 欠 佳 的 缘故 容易 导致 英 
文摘 要 翻译 为 中 文 后 包含 大 量 错 误 ,， 即 原本 重要 的 摘要 句子 并 没有 得 到 正确 翻译 。 先 翻 
译 后 摘要 的 方法 可 以 充分 利用 中 文 端 信息 , 但 是 从 包含 翻译 错误 的 中 文 译文 中 选择 的 摘 
要 句子 , 其 所 对 应 的 原始 英文 句子 未 必 是 重要 的 , 即 依据 中 文 特征 选 出 的 摘要 句子 有 可 
能 是 因为 翻译 错误 导致 的 。 因此 , 单方 面 地 利用 某 一 种 语言 的 特征 无 法 获得 满意 的 跨 语 
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言 摘要 结果 。 下 面 介绍 一 种 基于 图 的 跨 语言 摘要 方法 , 该 方法 同时 对 两 种 语言 的 特征 进 
行 联合 建 模 , 一 定 程度 地 避免 了 翻译 错误 导致 的 摘要 不 可 靠 的 问题 [Wan, 2011]. 
形式 化 地 , 给 定 英 文 文档 集合 D, 利用 机 器 翻译 将 其 翻译 成 中 文 文档 集合 D™ 。 
假设 Ve = {51 <i <n} 和 Te = {sP isn} 分 别 表示 D™ 和 De 中 的 句子 集 
合 。 其 中 , n 表示 文档 集合 中 的 句子 数目 ，sf? Es 通过 机 器 翻译 获得 的 中 文句 子 。 以 
图 10.10 为 例 , 构建 一 个 包含 五 种 元 素 的 无 向 图 G = (Ven,Ve, Be, bo, gem), 其 中 
en 表示 英文 文档 集合 中 任意 两 个 句子 之 间 的 关系 ,Een 表示 中 文 译文 中 任意 两 个 句子 
KAR, Be" ARV 中 的 任意 一 个 句子 与 Ve 中 任意 一 个 句子 之 间 的 关系 。 


英文 句子 集合 


英文 句 间 关 系 


英文 -中 文句 间 关 系 


中 文句 间 关 系 


中 文 (译文 ) 句 子 集合 
图 10.10 基于 图 模型 的 跨 语言 摘要 方法 


设 Wwe = (Wen), Je Be 中 边 之 间 的 权重 矩阵 , Wen 表示 Vn 中 第 ;个 英文 句 
F sr 和 第 了 个 英文 句子 s 之 间 的 相似 度 ; 


Simeosine (P, sf), i z p) 
Wet = wg 10.42 
j | 0, 其 他 


其 中 ，simeosine (s??, 9") 表示 so" 和 s 的 TDIDF 向 量 的 余弦 相似 度 。 BM 中 边 之 间 的 
权重 矩阵 We? = (WE) ;可 以 用 类 似 的 方法 计算 。 

在 Em 对 应 的 权重 矩阵 Wen = (Wa) n P BE WE 涉及 英文 句 
F spP 和 中 文句 子 s 品 ,对 应 的 TFIDF 向 量 属于 两 种 语言 , 不 在 同一 个 语义 空间 中 , 因 
此 无 法 直接 利用 向 量 余弦 计算 这 两 个 句子 之 间 的 相似 度 。 但 由 于 sf? 是 se? 的 中 文 译 
X, sP 的 英文 原文 是 98", 而 se" 和 sem, so" 和 so 在 相同 的 空间 中 , 因此 ， 可 以 采用 
Simeosine (s$, s$”) 和 simeosine (s$, 8") 近似 地 计算 Were: 


wy = y: Mil (E sm) X Siika (sf; sp (10.43) 


1 于 采用 的 是 无 向 图 模型 ， 因 此 We", we pwen 都 是 对 角 阵 ， 即 We = 
(Weny™, wen = (Wn) 和 enen = (Wenen)7。 在 逢 阵 中 对 每 一 行 元 素 归 一 化 就 可 以 得 
BI We, Wie" 和 证 mo。 如 果 用 (8°) Av (59) 分 别 表示 中 文句 子 sf MELT s 
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的 重要 性 得 分 , WA, u(se) 和 w (s) 可 通过 如 下 公式 迭代 更 新 , 直至 收敛; 
u(s) =a) Wiru (s7) +8) Wau ) (10.44) 
j 了 
u (s) =ad Wu (s) +8 >> Wo™u (ss) (10.45) 


其 中 , a+ 8 =1, FI SR. RE v (s) 之 后 , 便 可 采用 通用 摘要 方法 
中 的 句子 选择 方法 得 到 最 终 的 中 文摘 要 句子 。 

为 了 更 加 充分 地 考虑 内 容 的 重要 性 和 译文 结果 的 准确 性 两 方面 因素 ，[Zhang et al., 
2016] 对 通用 型 摘要 中 基于 信息 融合 的 生成 式 方法 进行 了 拓展 , 使 其 适应 跨 语言 摘要 任 
务 的 特殊 要 求 ， 所 不 同 的 是 , 通用 型 摘要 中 采用 名 词 短语 和 动词 短语 分 别 表示 概念 和 事 
实 , 而 [Zhang et al., 2016] 采用 谓词 - 论 元 结构 中 的 施 事 CARGO) 表示 概念 ， 谓 词 和 受 
事 (Predicate+ARG1 或 Predicate+ARG2) 表示 事实 。 类 似 于 抽取 式 摘要 方法 , 首先 借 
助 机 器 翻译 引擎 将 英文 句子 翻译 成 中 文句 子 , 然后 进行 概念 和 事实 抽取 。 

图 10.11 给 出 基于 信息 融合 模型 的 生成 式 跨 语言 摘要 方法 示意 图 。 从 图 中 可 以 
看 出 ,首先 对 英文 句子 进行 语义 角色 标注 ,得 到 该 句子 的 谓词 论 元 结构 , 然后 利用 词 
语 之 间 的 互 译 关 系 ( 即 机 器 翻译 中 的 词语 对 齐 ) 将 英文 句子 中 的 概念 CARGO) 和 事 
SE (Predicate+ARG1 或 Predicate+ARG2) 映射 到 中 文 短语 上 。 例 如 “美国 总 统 布什 ” 
和 “布什 总 统 ” 表 示 概 念 , “他 第 二 次 访问 ”“ 访 问 该 地 区 ”“ 授 权 为 受灾 地 区 ”“ 授 
权 的 联邦 救灾 援助 ”““ 计 划 检查 的 状态 ” 均 表示 事实 。 由 于 这 两 个 句子 描述 的 是 同 
一 个 概念 “布什 总 统 ”， 因 此 在 摘要 生成 过 程 中 可 以 融合 这 两 个 句子 的 重要 事实 , 并 压 
缩 为 一 个 句子 。 通过 计算 发 现 , 事实 “他 第 二 次 访问 ”“ 访 问 该 地 区 ”“ 授 权 为 受灾 
地 区 ”“ 授 权 的 联邦 救灾 援助 ”不 仅 重要 性 得 分 高 , 而 且 译 文 质量 好 。 将 概念 和 事实 进 
行 融合 , 就 可 以 得 到 最 终 的 摘要 句子 : “布什 总 统 他 第 二 次 访问 该 地 区 , 授权 为 受 
灾 地 区 的 联邦 救灾 援助 ”。 在 整个 过 程 中 最 关键 的 两 个 问题 是 概念 和 事实 的 综合 性 得 
分 (重要 性 与 翻译 质量 ) 计算 及 概念 和 事实 的 兼容 性 判别 。 


ARGO AM-TMP ARG1 A AM-TMP 
En: _ [president george bush FEHERAY made his second visit o the reion SNES RE HUE hit 
Ch: AMER Se . E. 
ARGO ARG1 ARG1 
En: ‘president bush authorised federal disaster assistance for the affected areas and made plans for an inspection tour of the state . 
Ch: Man 5 Se 地 区 AUR 2 计划 检查 的 状态 。 


Ed 
Ch: ES ok. HAN ok 地 区 便 吴 二 要 芝 捷 二 


图 10.11 基于 信息 融合 模型 的 生成 式 跨 语言 摘要 方法 示意 图 
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在 概念 和 事实 的 综合 性 得 分 计算 中 , 重要 性 得 分 Sim 可 通过 上 述 介绍 的 各 种 方式 求 
解 , 例如 , 计算 命名 实体 的 比例 或 采用 基于 图 的 双语 联合 模型 。 在 翻译 质量 Strans 的 评估 
中 , [Zhang et al., 2016] 融合 了 词汇 翻译 概率 Py 和 语言 模型 得 分 Pm。 具体 计算 方法 如 
下 : 给 定 一 个 英文 概念 或 事实 phe, = eoe1… el 及 其 对 应 的 中 文 翻译 phen = cocl … cm， 
词汇 翻译 概率 的 计算 公式 如 下 : 


1 
m m+1 
1 

Pex Den Dens = Wwenve GAs al jlei 10.46 
eh 位 Me ye POI | 
其 中 , a 表示 pho, 和 phe, 之 间 的 词语 互 译 关系 (词语 对 齐 关系 ), 如 (i,j) € a 表示 c 
Ale; 是 互 为 翻译 的 词 对 。a 和 词语 之 问 的 翻译 概率 p (cjilei) 可 以 通过 机 器 翻译 中 的 词语 

对 齐 工具 GIZA++:! 获 得 。 中 文 译文 phen 的 语言 模型 概率 由 下 述 的 n-gram 模型 计算 : 


m—n+1 


Pim (Phen) = XO p(ejlej—nga +++ 6-1) (10.47) 


j=0 


翻译 质量 可 通过 词汇 翻译 概率 和 语言 模型 概率 的 乘积 表示 : Suans = 
Pex (phon|phen,4) X Pim (phen)。 最 后 ,采用 重要 性 得 分 Sim 与 翻译 质量 的 加 权 之 和 
Strans 表示 概念 或 事实 的 综合 性 得 分 : Scom = QSim + BStrans。 

概念 和 事实 的 兼容 性 包括 概念 之 间 的 兼容 性 与 概念 和 事实 之 间 的 兼容 性 。 概 念 之 间 
的 兼容 性 判别 由 在 判定 不 同 句 子 中 描述 的 两 个 概念 是 否 属于 同一 个 概念 。 概念 和 事实 之 
间 的 兼容 性 判别 由 在 判定 概念 是 否 就 是 事实 的 施 事 主体 ,概念 之 间 的 兼容 性 可 以 通过 指 
代 消 解 和 相似 度 计算 判别 .。 例如 “美国 总 统 布什 ”和 “布什 总 统 ” 由 于 共享 相同 的 实 
体 “ 布 什 ” 和 头衔 “总 统 ”， 相 似 度 很 高 , 所 以 是 两 个 兼容 的 概念 。 ES concept, 和 事实 
facten 当 且 仅 当 满足 以 下 条 件 时 才 符 合 兼容 性 约束 : O concept, 和 facta 来 源 于 同一 
个 句子 , 或 者 @ concepto Fl facty, 来 源 于 同一 个 句子 , 并 且 facti 和 facten 互相 兼容 。 

已 知 概念 和 事实 的 综合 性 得 分 以 及 它们 的 兼容 性 约束 之 后 ,类似 于 通用 型 摘要 方 
法 中 的 整数 线性 规划 模型 ,可 对 跨 语言 摘要 任务 建 模 求解 ， 获 得 满足 长 度 约束 的 中 文 
摘要 。 


10.6.2 ”多 语言 自动 摘要 


多 语言 自动 摘要 任务 的 输入 是 多 种 语言 关于 同一 主题 的 文本 (或 文本 集合 ), 输出 是 
用 其 中 的 一 种 语言 表达 的 摘要 。 例如 , 在 已 有 英文 、 日 文 和 中 文 等 关于 同一 主题 的 混合 
文本 集合 基础 上 , 生成 一 个 中 文 的 摘要 。 在 实际 生活 中 , 多 语言 摘要 任务 十 分 常见 , 例如 
全 球 各 大 媒体 对 某 一 重要 事件 (如 叙利亚 难民 事件 、 朝 鲜 核 问题 等 ) 每 天 都 以 不 同 的 语 
言 进 行 大 量 的 报道 , 虽然 主题 相同 , 但 往往 侧重 点 各 有 不 同 。 因此 , 将 多 语言 文本 的 内 容 
压缩 为 用 户 需 要 的 某 种 语言 摘要 是 一 种 重要 的 信息 获取 途径 。 


1http://www.statmt.org/moses/giza/GIZA++.html 
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在 多 语言 摘要 任务 中 , 一 种 典型 的 方法 是 采用 先 翻译 后 摘要 的 思想 : 首先 借助 机 器 
翻译 引擎 将 所 有 其 他 语言 的 文本 翻译 成 为 用 户 需 要 的 语言 ， 然 后 以 用 户 需 要 的 语言 文本 
集合 作为 模型 的 输入 , 采用 通用 型 摘要 方法 获得 最 终 的 摘要 。 以 英文 和 中 文 混合 的 文本 
集合 生成 中 文摘 要 为 例 , 典型 方法 是 首先 将 英文 文档 中 所 有 人 句子 通过 机 器 翻译 系统 转换 
成 中 文句 子 , 然后 与 原始 的 中 文句 子 混合 , 采用 通用 型 摘要 方法 生成 中 文摘 要 。 很 多 研 
究 发 现 , 从 机 器 翻译 的 结果 中 抽取 摘要 句子 往往 会 降低 摘要 的 质量 。 这 与 跨 语言 摘要 方 
法 一 样 , 存在 一 个 关键 问题 如 何 利用 并 不 完美 的 机 器 翻译 结果 ? 在 先 翻译 后 摘要 的 方 
法 中 , 通常 对 机 器 翻译 得 到 的 中 文句 子 与 原始 中 文句 子 不 作 任 何 区 分 , 但 实际 上 机 器 翻 
译 获得 的 中 文句 子 在 信息 保持 和 流畅 性 等 方面 显然 不 如 原始 的 句子 , 不 应 该 与 原始 自然 
的 中 文句 子 同等 对 待 。 


英文 句子 集合 


俄罗斯 一 架 苏 -24 战 机 24 日 在 土耳其 和 
叙利亚 边境 叙利亚 一 侧 哈 毁 。 


The plane crashed on to the Syria side of 


| | 
H 7 SP: n x 
& | the Turkish-Syrian border. 
en A D 
i SE 飞机 坠毁 在 土耳其 边界 的 叙利亚 一 侧 。 
iS LWP 


中 文句 子 集合 
图 10.12 基于 自 适应 图 模型 的 多 语言 摘要 方法 示意 图 


因此 ，Li et al. (2016a) 提出 了 一 种 基于 自 适应 图 模型 的 多 语言 摘要 方法 。 该 方 
法 是 无 向 图 模型 的 扩展 , 通过 自 适应 的 方法 在 连接 两 种 语言 的 无 向 边 中 自动 选择 某 
些 边 , 并 将 其 转换 为 有 向 边 。 其 基本 思路 为 : 给 定 英文 文档 集合 D 和 中 文 文档 集合 
D”, Vr = {s 吕 1 <i <n} 和 Te = {sg 外 |1 <i < m} 分 别 表 示 De 和 De 中 的 句子 
集合 。 首先 , 构建 一 个 无 向 图 G = (V",V", EB", BB"), 在 进行 图 的 迭代 算法 之 
前 , 将 连接 两 种 语言 的 边 集合 Benen 中 的 某 些 边 从 无 向 边 〈 即 双向 ) 变 为 单 向 边 (英文 句 
子 指向 中 文句 子 ), 表示 英文 句子 仅 对 中 文句 子 的 重要 性 有 贡献 ， 反之 则 不 然 。 

如 图 10.12 Aras, 英文 句子 SS" 的 中 文 翻译 结果 Sept 和 原始 中 文句 子 59? 的 意思 
接近 , 而 且 该 中 文 翻译 sa 还 丢失 了 原文 信息 , 在 这 种 情形 下 , 应 该 更 倾向 于 选择 原 
始 的 中 文句 子 SP, 而 不 选择 与 其 相似 的 翻译 结果 Sn。 因此 ,英文 句子 Se 和 中 文句 
T SP 之 间 的 无 向 边 需要 转换 成 SP? 到 SH 的 单 向 边 。 

那么 , 如 何 判 断 Som 与 semen 之 间 是 否 相似 呢 ? 可 以 从 多 个 角度 处 理 这 个 问题 。 其 
一 , 采用 余弦 相似 度 计算 Sm 与 semen 之 间 的 相关 性 ,如 果 计 算 结果 大 于 某 个 阔 值 ， 则 
认为 两 个 句子 相似 , 否则 , 不 相似 ; 其 二 , 采用 文本 蕴涵 的 方法 判别 So FE im Speen, 
如 果 蕴 涵 成 立 ， 则 认为 Soe Semen 相似 , 否则 不 相似 ; 其 三 , 通过 机 器 翻译 模型 判断 
原始 中 文句 子 ST 是 否 是 英文 句子 SP 的 译文 , 如 果 可 能 性 超出 某 个 阔 值 ， 则 认为 SP 
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与 spm 相似 , 否则 不 相似 。 

Eem 中 的 边 经 过 变换 之 后 ,基于 图 的 算法 就 可 以 友 代 计算 中 文句 子 和 英文 句子 的 
重要 性 得 分 。 这 种 方法 不 仅 可 以 避免 选择 与 原始 中 文 内 容 相 似 的 英文 句子 , 还 可 以 保留 
内 容 互 补 且 重要 的 英文 句子 , 其 中 文 译文 将 成 为 最 终 摘要 的 一 部 分 。 


10.7 ”摘要 质量 评估 方法 和 相关 评测 


在 文本 自动 摘要 研究 中 ， 人 们 不 断 提出 新 的 模型 和 方法 , 希望 及 时 发 现 新 的 模型 和 
方法 是 否 对 摘要 质量 有 所 改进 ， 所 以 , 摘要 质量 的 评估 方法 在 一 定 程度 上 成 为 摘要 技术 
能 否 快 速 迭代 的 重要 因素 。 


10.7.1 ”摘要 质量 评估 方法 


相对 于 文本 分 类 和 机 器 翻译 等 应 用 的 技术 评测 ， 摘 要 质量 评估 是 更 加 为 手 的 问题 ， 
因为 理论 上 没有 完美 的 摘要 , 对 于 同一 文档 或 文档 集合 , 不 同 的 人 总 结 生成 的 摘要 可 能 
差异 很 大 。 尽 管 摘 要 质量 评估 面临 巨大 的 困难 和 挑战 , 但 还 是 吸引 了 众多 学 者 的 关注 。 
总 的 来 说 , 摘要 质量 评估 方法 主要 分 为 人 工 评价 方法 和 自动 评价 方法 两 种 。 


1. 人 工 评 价 方法 


人 工 评价 最 为 直观 , 简单 地 说 就 是 请 专家 对 系统 的 自动 摘要 结果 进行 打分 , 打分 
依据 主要 参考 一 致 性 、 文 法 合理 性 和 内 容 含量 等 指标 。 在 2005 年 NIST 组 织 的 DUC 
评测 中 ， 人 工 评 价 指标 包括 如 下 5 项 : 摘要 合乎 文法 性 (grammaticality)、 非 匈 余 
性 Cnon-redundancy)、 指 代 清 晰 程度 (referential clarity)、 聚 焦 情 况 Cocus) 和 结构 
一 致 性 (structure and coherence)。 每 项 得 分 从 1 #5, 1 表示 最 差 ，5 代表 最 优 。 这 
5 个 评价 指标 也 是 目前 被 广泛 接受 的 人 工 评测 参考 标准 , 但是， 人工 评 测 过 程 中 人 与 
人 之 间 打 分 的 差异 非常 大 , 某 位 专家 认为 质量 很 好 的 系统 摘要 结果 在 另 一 位 专家 眼 里 
可 能 根本 不 像 摘 要 ， 因此， 如 何 克 服 评分 专家 之 间 的 差异 性 成 为 研究 者 关注 的 焦点 。 
其 中 , 金字 塔 方法 (pyramid method) 是 解决 这 一 问题 的 有 效 途 径 之 一 [Nenkova and 
Passonneau, 2004]。 

在 金字 塔 方法 中 , 摘要 内 容 单 元 (summary content unit, SCU) 是 核心 概念 , 表示 摘 
要 中 子 句 级 的 重要 语义 单元 , 不 同 的 摘要 结果 可 能 共享 多 个 SOU, 即使 这 些 摘要 结果 采 
用 的 词汇 不 尽 相 同 。 SCU 可 短 至 一 个 名 词 短语 的 修饰 成 分 , 也 可 长 至 一 个 从 句 。 在 SCU 
的 分 析 标 注 过 程 中 , 标注 者 需要 以 自己 的 语言 描述 不 同 摘要 共享 的 SCU。 如 果 某 个 句子 
包含 的 信息 仅 出 现 于 一 个 摘要 , 那么 将 该 句子 按 从 句 划分， 每 个 从 句 作为 一 个 SCU。 

对 于 一 个 文档 集合 (测试 集 )， 首 先 邀 请 mm 位 专家 撰写 参考 摘要 , 产生 m 个 参考 摘 
要 Sumrer (70,71,… ,rm)。 然 后 人 工分 析 每 个 参考 摘要 ,提取 摘要 内 容 单元 SCU 的 集 
合 ， 并 为 参考 摘要 中 每 个 SCU 进行 赋值 ， 如 果 某 个 SCU 被 w 个 参考 摘要 提 及 ， 则 该 
SCU 的 权 值 为 w。 由 于 被 m 个 参考 摘要 全 部 提 及 的 SCU 最 少 , 被 (m 一 1) 个 参考 摘 
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要 同时 提 及 的 SCU 相应 增多 , 被 1 个 参考 摘要 提 及 的 SCU RS, 因此 SCU 值 呈 金 字 
塔 分 布 , 这 也 是 金字 塔 方法 命名 的 缘由 。 根据 专家 的 打分 情况 可 以 计算 出 参考 摘要 (或 
称 “ 理 想 摘要 ”) 的 得 分 。 

对 于 一 个 系统 输出 的 摘要 , 第 一 步 人 工分 析 系 统 摘要 的 SCU; 第 二 步 计算 所 有 SCU 
在 参考 摘要 中 的 得 分 之 和 Scoresys; 第 三 步 计算 系统 摘要 得 分 Scoresys 与 “理想 摘要 ”得 
分 的 比值 ,作为 系统 摘要 的 质量 评价 得 分 。 

下 面 通过 一 个 例子 介绍 摘要 内 容 单元 SCU 的 确定 方法 。 


A2: | 2016 年 美国 大 选 , 特 朗 普 击败 希拉 里 ， 当 选 第 45 任 美国 总 统 。 
B4: | 他 赢得 了 第 45 任 美 国 总 统 大 选 。 

C3: | 特 朗 普 成 为 第 45 任 美国 总 统 。 

D1: | 2016 年 的 美国 大 选 悬念 欠 起 ,最 终 特 朗 普 有 惊 无 险 ， 赢 得 胜利 。 


如 上 表 所 示 , 假设 共有 4 个 人 工 参 考 摘要 ，A2 表示 第 一 个 参考 摘要 中 的 第 二 名 
if, BA 表示 第 二 个 参考 摘要 中 的 第 4 句 话 ，C3 和 D1 类 似 。 标注 者 从 这 些 参 考 摘要 中 
提取 包含 相似 信息 的 摘要 内 容 单 元 SCU。 从 语义 角度 分 析 ,， 这 些 句 子 中 包含 如 下 两 个 摘 
要 内 容 单元 SCU1 和 SCU2, 由 于 SCU1 出 现在 4 个 参考 摘要 中 , 则 SCUL 的 值 为 4, 类 
似 地 ，SCU2 的 值 为 2。 


SCU1:” 特 朗 普 当选 第 45 届 美 国 总 统 
A2: 特 朗 普 击败 希拉 里 ,当选 第 45 任 美国 总 统 
B4: 他 赢得 了 第 45 届 美 国 总 统 大 选 
C3: 特 朗 普 成 为 第 45 任 美国 总 统 
D1: 特 朗 普 有 惊 无 险 ， 赢 得 胜利 
SCU2: 2016 年 美国 举行 总 统 大 选 
A2: 2016 年 美国 大 选 
D1: 2016 年 的 美国 大 选 


m 个 参考 摘要 对 应 一 个 最 高 为 m 层 的 金字 塔 ,图 10.13 是 一 个 由 4 个 参考 摘要 形 
成 的 4 层 金字 塔 。 如 果 一 个 SCU 出 现在 4 个 参考 摘要 中 , 则 将 该 SCU 放 入 金字 塔 的 最 
EB, W = 4; 只 被 一 个 摘要 提 及 的 SCU WAR FE, W = 1。 金字塔 的 层 数 可 能 小 于 
参考 摘要 的 数目 , 例如 ,如 果 不 存在 一 个 SCU 被 其 中 3 个 摘要 共享 , 那么 金字 塔 将 没有 
W = 3 那 一 层 。 


图 10.13 ”四 个 参考 摘要 构成 的 金字 塔 示意 图 
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对 于 一 个 m 层 的 金字 塔 , Ti 表示 第 i 层 , T; 中 所 有 SCU 的 权 值 都 是 i， 即 这 些 
SCU 被 i 个 参考 摘要 提 及 , |T;| 表示 TT 中 SCU 的 数目 。 对 于 一 个 需要 包含 X 个 SCU 
的 理想 摘要 , 希望 能 够 包含 金字 塔 最 上 层 的 SCU, 然后 依次 包含 m 一 1 层 、m 一 2 层 的 
SCU, 直至 包含 X 个 SCU, 其 得 分 的 计算 公式 如 下 : 


Scoreigeal = 》 ix (il +5 x (x- > mi) (10.48) 


i=j+1 i=j+1 


we jmp (Dx). 
t=k 


图 10.13 展示 了 4 个 参考 摘要 构成 的 金字 塔 示意 图 .该 图 表明 4 个 参考 摘要 中 一 共 
有 6 个 SOU, 其 中 两 个 被 所 有 参考 摘要 包含, 其 他 4 个 出 现在 3 个 参考 摘要 中 。 对 于 需 
要 包含 4 个 SCU 的 理想 摘要 , 那么 一 定 是 有 两 个 SCU 在 金字 塔 的 最 上 层 OV = 4), 其 
余 两 个 在 W = 3 层 , 图 中 的 两 个 实 线圈 表示 包含 4 个 SCU 的 理想 的 摘要 。 

假设 一 个 自动 摘要 系统 输出 的 摘要 Sumsys 经 与 参考 摘要 对 比分 析 后 , 发 现金 字 塔 
SE N P Di 个 SCU 出 现在 系统 摘要 中 ， 即 系统 摘要 中 Di 个 SCU 被 ; 个 参考 摘要 
提 及 ,那么 Sumas 共 含有 SCU 的 数目 为 》 Dis 其 得 分 为 : 


i=l 


m 
Scoresys = Ji x Di (10.49) 


i=1 


KX= S Di; 表示 理想 摘要 中 应 该 包含 的 SCU BLA, 那么 系统 摘要 的 质量 得 分 
i=1 
Scoresys 


即 为 


Scoreideal ý 

金字 塔 方法 在 摘要 质量 评估 方面 可 以 尽 可 能 地 降低 人 工 摘要 的 差异 性 对 质量 打分 的 
影响 。 但 是 ， 人工 评 价 方 法 每 次 需要 消耗 大 量 的 人 力 资源 , 例如 , DUC 组 织 的 摘要 评测 
每 年 需要 3000 个 小 时 的 人 工 评价 摘要 质量 。 因 此 , 设计 自动 的 摘要 质量 评估 方法 逐渐 成 
为 研究 热点 。 


2. 自动 评价 方法 


文摘 自动 评价 方法 主要 包括 两 类 : 一 类 称 为 内 部 Gntrinsic) 评价 方法 , 即 通 过 直接 
分 析 摘 要 的 质量 评价 文摘 系统 ; 另 一 类 称 作 外 部 (extrinsic) 评价 方法 , 它 是 一 种 间接 的 
评价 方法 , 与 具体 应 用 任务 相关 , 依据 摘要 结果 对 其 他 应 用 任务 的 效果 评价 摘要 系统 的 
性 能 。 

内 部 评价 方法 直观 高 效 ， 是 一 种 广泛 采用 的 方法 。 一 般 地 ， 内 部 评价 方法 又 可 分 为 
两 类 : 形式 度量 (form metrics) 和 内 容 度量 (content metrics)。 形 式 度量 侧重 于 语法 、 
摘要 的 连贯 性 和 组 织 结构 ， 内 容 度量 更 加 侧重 内 容 和 信息 ,是 大 多 数 自动 评价 方法 关注 
的 焦点 。 下 面 介绍 一 种 常用 的 采用 内 容 度量 的 评价 方法 ROUGE [Lin, 2004]. 
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Lin (2004) 提 出 的 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 评 
价 方法 几乎 成 为 摘要 自动 评价 的 标准 方法 。 该 方法 的 基本 思想 来 源 于 机 器 翻译 评价 指标 
BLEU (BiLingual Evaluation Understudy) [Papineni et al., 2002], {4 BLEU 面向 的 是 
准确 率 , 而 ROUGE 关注 召回 率 。 

假设 一 个 文档 集合 对 应 人 工 参 考 摘要 r, 系统 产生 的 摘要 为 sum, ROUGE-n (n 表 
示 作 为 匹配 单元 的 词组 所 包含 的 词语 数目 ) 的 计算 公式 如 下 : 


> countmatch (N-gram, sum) 


ROUGE-n (sum, r) = Te (10.50) 
> count (n-gram) 


n-gramer 


其 中 , n 表示 词组 n-gram HKEE, countmatcn(n-gram, sum) 表示 n-gram 在 参考 摘要 
r 和 系统 摘要 sum 中 同 现 的 最 大 次 数 ， 如 果 n-gram 在 参考 摘要 中 出 现 a 次 , 在 系统 
摘要 中 出 现 5 次 , HS Acountmatcn(n-gram, sum)=min(a, b)。 从 上 面 的 计算 公式 可 以 看 
出 ROUGE-n 是 面向 召回 率 的 评价 指标 。 

如 果 同 时 拥有 多 个 参考 摘要 R = {ro,71,… ,rm}， 那么 可 以 将 系统 摘要 与 每 个 参考 
摘要 计算 ROUGE-n, 并 取 最 大 值 作为 最 终结 果 , 计算 方法 如 下 : 


ROUGE-nmuati (sum) = max ROUGE-n (sum, r) (10.51) 
P 


ROUGE 中 还 有 多 种 召回 率 驱动 的 摘要 质量 评价 方法 , 例如 , ROUGE-L 和 ROUGE- 
5 等 。 其中, ROUGE-L 计 算 公 共 子 串 的 匹配 率 , 基本 思路 是 如 果 两 个 句子 包含 的 公共 
子 串 越 长 ,说 明 这 两 个 句子 越 相似 。 设 so,s1,… ,su 为 参考 摘要 R 中 的 所 有 摘要 名 
F, sum 为 系统 给 出 的 摘要 ( 视 为 所 有 句子 的 拼接 ), 那么 , ROUGE-L 可 用 下 面 的 公式 
计算 : 

(1+ 6°) Rics Pics 


ROUGE-L (sum) = Rios + P Pios 


(10.52) 


其 中 ，RLcs 和 Pros 分 别 利用 如 下 公式 计算 : 


> LCS (si, sum) 
Rics = 三 OQ (10.53) 


u 
dole 
i=1 


> LCS (si, sum) 
_ i=l 
Pics = a (10.54) 
其 中 , LCS (ri, sum) 表示 s; 和 sum 中 最 长 公共 子 串 的 长 度 , |si| 表示 参考 摘要 句子 的 长 
度 , |sum| 表示 系统 摘要 的 长 度 。 
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ROUGE-S#ZROUGE-n (n = 2) 的 一 种 扩展 ， 称 为 间隔 二 元 组 (skip bigram) 匹配 
率 。 例如 ,“ 特 朗 普 当选 总 统 ” 中 ,“ 特 朗 普 - 总 统 ” 是 一 个 间隔 二 元 组 。ROUGE-S 的 计算 


公式 如 下 : 
(1+ 6?) RsPs 
Rs + 6?Ps 


其 中 ,Rs 和 Ps 分 别 为 间隔 二 元 组 的 召回 率 和 准确 率 , 计算 公式 与 ROUGE-n 相 同 。 


ROUGE-S (sum) = (10.55) 


10.7.2 ”相关 评测 活动 


对 文档 自动 摘要 方法 和 系统 进行 公开 评测 是 推动 该 技术 发 展 的 强大 动力 。 自 2001 
年 以 来 ,， 几乎 每 年 都 会 举办 国际 或 国内 的 自动 摘要 方法 评测 , 包括 美国 国家 标准 技术 研 
究 院 (NIST) 组 织 的 DUC Al TAC 评测 , 国际 计算 语言 学 学 会 (ACL) 组 织 的 MSE 和 
MultiLing 评测 , 以 及 国内 NLPCC 组 织 的 自动 摘要 评测 等 。 这 些 评测 的 流程 基本 一 致 : 
首先 由 组 织 单位 给 各 参评 单位 发 布 训练 集 , 供 参 评 单位 对 自己 的 摘要 系统 进行 参数 训练 
和 模拟 测试 。 然后 , 在 某 个 特定 时 间 组 织 单位 给 参评 单位 统一 发 放 测试 数据 ， 并 要 求 所 
有 参评 单位 在 规定 的 时 间 内 提交 摘要 系统 的 运行 结果 。 之 后 , 组 织 单位 通过 自动 评测 和 
人 工 评测 对 各 参与 单位 提交 的 结果 进行 打分 排序 。 最 后 , 在 举行 的 评测 研讨 会 上 ,各 参 
评 单位 分 别 介绍 各 自 系统 所 采用 的 模型 和 算法 ,进行 深入 交流 和 探讨 。 

以 下 简要 介绍 儿 个 评测 的 基本 情况 。 


1. DUC 文本 摘要 评测 


NIST 在 美国 南 加 州 大 学 Daniel Marcu 等 人 的 倡导 下 于 2001 年 发 起 了 文档 理解 会 
i DUC (Document Understanding Conference) , 主要 任务 就 是 评测 文本 摘要 技术 的 发 
EKE, M 2001 年 至 2007 年 , 平均 每 年 吸引 了 20 家 单位 参与 这 项 技术 评测 。2001 年 
与 2002 年 , DUC 关注 单 文档 和 多 文档 的 新 闻 摘 要 评测 。NIST 收集 了 60 个 新 闻 文 档 集 
合 , 每 个 集合 对 应 一 个 主题 , 并 且 为 每 篇 文档 、 每 个 文档 集合 生成 多 个 人 工 摘要 作为 参 
考 。 其 中 30 个 文档 集合 作为 训练 集 , 另外 30 个 作为 测试 集 。 

2003 年 DUC 增加 了 新 的 测试 任务 , 例如 为 单 文 档 生 成 极 短 摘要 ， 类似 于 新 闻 标 题 
生成 ; 基于 事件 和 观点 的 多 文档 摘要 生成 以 及 面向 问题 的 摘要 生成 , 即 要 求 系统 产生 的 
摘要 能 够 回答 指定 的 问题 。2004 E, DUC 又 探索 了 跨 语 言 文本 摘要 技术 的 评测 ， 只 不 
过 更 像 是 对 “ 先 翻译 再 摘要 ”方法 进行 的 评测 ， 因 为 组 织 方 仅 提供 机 器 翻译 后 的 英文 文 
档 作为 输入 , 对 于 参评 单位 来 说 源 语言 信息 是 未 知 的 。2005 至 2007 三 年 间 , DUC 主要 
对 基于 查询 的 多 文档 摘要 技术 进行 评测 。 DUC ANF 2008 年 停止 举办 , 同样 是 NIST 
组 织 的 TAC (Text Analysis Conference) 开始 接管 文本 摘要 评测 任务 。 


2. TAC 文本 摘要 评测 


从 2008 年 开始 TAC 组 织 包括 文本 摘要 、 自 动 问答 、 文 本 蕴涵 和 知识 库 填充 等 4 个 
评测 任务 。 其 中 , 文本 摘要 评测 共 组 织 了 5 次 (2008—2011 年 和 2014 年 )。2008 年 和 
2009 年 , TAC 设计 了 更 新 式 摘要 方法 的 评测 任务 (Update Summarization): 即 假设 用 
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户 已 经 阅读 了 关于 某 个 主题 的 早 些 时 间 的 文章 , 给 定 同一 主题 当前 时 间 的 多 篇 文档 , 要 
求 参评 系统 产生 一 个 更 新 式 的 摘要 结果 。 

TAC 在 2010 和 2011 年 开始 关注 基于 指导 的 摘要 任务 (Guided Summarization): 
给 定 同一 主题 的 多 篇 文档 , 为 指定 的 事件 类 别 (Categories) 和 要 素 (Aspects)， 提 取 并 
生成 包含 所 有 指定 要 素 的 摘要 结果 。TAC 在 2011 年 还 探索 了 一 种 语言 无 关 的 多 语言 
要 任务 , 该 任务 希望 参与 者 提出 的 自动 摘要 方法 具有 通用 性 , 不 仅 在 某 一 种 语言 的 文本 
摘要 任务 中 有 效 , 而 且 在 其 他 多 种 语言 的 文本 摘要 任务 中 也 取得 好 的 效果 。 后 来 这 种 语 
言 无 关 的 摘要 评测 任务 由 MultiLing 研讨 会 持续 举办 , 并 且 每 两 年 评测 一 次 。 

TAC 于 2014 年 组 织 了 面向 生物 医学 的 科技 文献 自动 摘要 评测 任务 : 给 定 一 组 引用 
了 同一 文献 的 论文 , 要 求 参评 系统 识别 出 描述 引用 的 文本 块 ， 并 为 被 引文 献 生 成 一 个 结 
构 化 的 摘要 , 使 其 包含 各 引用 文本 的 相关 信息 。 


3. MSE 文本 摘要 评测 


ACL 于 2005 年 和 2006 年 分 别 组 织 了 多 语言 摘要 评测 (multi-lingual summarization 
evaluation, MSE) 的 研讨 会 。 组 织 方 提供 阿拉 伯 语 和 英语 两 种 语言 关于 同一 主题 的 文本 
合 ， 要 求 参评 系统 提交 100 词 以 内 的 英文 摘要 。 绝 大 多 数 参 评 者 利用 机 器 翻译 系统 将 
阿拉 伯 语 文档 翻译 成 英语 文档 ， 从 而 将 其 转换 为 单一 语言 的 通用 型 文本 摘要 任务 。 评 测 
结果 发 现 , 这 种 “ 先 翻译 再 摘要 ”的 方法 生成 的 摘要 质量 还 不 如 仅仅 利用 原始 英文 文档 
生成 的 摘要 。 这 种 现象 可 能 由 两 个 原因 所 致 ,一 方面 是 当时 的 机 器 翻译 系统 水 平 还 比较 
AEG. 阿拉 伯 语 到 英语 的 翻译 质量 不 高 ; 另 一 方面 是 当年 的 多 语言 摘要 方法 并 未 有 效 地 利 
用 机 器 翻译 结果 。 


4. NLPCC 文本 摘要 评测 


DUC 和 TAC 等 国际 文本 摘要 评测 关注 的 语言 基本 都 是 英语 , 而 面 对 汉语 文本 的 摘 
要 技术 评测 几乎 没有 。 中 国 计 算 机 学 会 中 文 信息 处 理 专 委 会 主办 的 自然 语言 处 理 与 中 文 
计算 NLPCC (Natural Language Processing and Chinese Computing) 会 议 从 2015 年 
起 开始 组 织 中 文 自动 摘要 评测 。2015 年 和 2017 年 , NLPCC 针对 单 文档 新 闻 摘要 任务 
进行 了 评测 , 其 中 2015 年 的 评测 任务 更 加 面向 社交 网 络 , 即 为 新 闻 文 档 生 成 一 个 可 以 在 
微 博 发 布 的 140 个 汉字 以 内 的 摘要 。 

2016 年 NLPCC 探索 了 一 个 全 新 的 体育 新 闻 生 成 的 文本 摘要 任务 : 给 定 一 项 体育 
赛事 直播 的 中 文 脚本 文件 ， 要求 参评 系统 生成 该 体育 赛事 的 简短 报道 。 从 评测 任务 可 以 
看 出 , 国内 在 文本 摘要 任务 评测 方面 更 加 关注 实际 应 用 。 


10.8 ”进一步 阅读 


本 章 介 绍 了 自动 摘要 技术 的 典型 方法 和 任务 , 还 有 很 多 摘要 任务 并 未 涉及 , 例如 比 
较 式 摘要 [Huang et al., 2011]、 更 新 式 摘 要 [Dang and Owczarzak, 2008]、 时 间 轴 摘要 
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[Yan et al., 2011] 和 多 模 态 摘要 [Wang et al., 2016b; Li et al., 2017b] 等 。 比 较 式 摘要 上 由 
在 为 相似 主题 的 文档 集合 生成 多 侧面 比较 的 总 结 性 文摘 ,如 为 2008 和 2016 年 奥运 会 的 
报道 生成 对 比 性 摘要 。 假设 用 户 已 知 某 个 话题 的 历史 摘要 信息 , 更 新 式 摘要 的 目标 是 为 
用 户 生 成 最 新 的 与 之 前 信息 不 同 的 简短 文摘 。 时 间 轴 摘要 则 是 为 某 个 事件 或 话题 按照 时 
间 节 点 生成 一 系列 的 简短 报道 。 关于 这 些 任务 的 详细 介绍 和 最 新 进展 可 参考 文献 [Yao 
et al., 2017]. 

以 文本 为 核心 的 多 模 态 摘 要 受到 越 来 越 广泛 的 关注 。 例 如， 如 何在 产生 摘要 的 过 程 
中 充分 利用 相关 图 片 信息 [Wang et al., 2016b], 如 何 将 同一 话题 下 的 文本 报道 、 图 片 视 
频 新 闻 和 语音 报道 综合 考虑 ,对 文本 、 语 音 和 视觉 三 种 模 态 信息 统一 建 模 , 生成 全 方位 
但 简短 的 文本 摘要 [Li et al., 2017b], 以 及 如 何以 图 文 并 茂 的 方式 生成 摘要 结果 [Zhu et 
al., 2018]. 

从 方法 的 角度 ， 端 到 端的 生成 式 模型 是 近年 来 当仁不让 的 前 沿 方法 [Rush et al., 
2015; Chopra et al., 2016; Gu et al., 2016; Tan et al., 2017; Nema et al., 2017; Zhou et 
al., 2017], 这 种 方法 涉及 三 个 关键 技术 : 如 何 准确 地 编码 原文 、 如果 精准 地 选择 和 关注 文 
档 的 重点 以 及 如 何 压缩 生成 最 终 的 摘要 。 文献 [Zhou et al., 2017]、[Gu et al., 2016; Tan 
et al., 2017] 和 [Nema et al., 2017] 分 别针 对 这 三 方面 的 问题 进行 了 深入 探讨 。 但 是 , H 
前 端 到 端的 方法 还 只 是 停留 在 复杂 句子 或 单 文档 的 摘要 生成 上 ， 如 何 将 其 应 用 于 多 文 
档 、 多 语言 和 多 模 态 等 摘要 仍然 是 一 个 开放 的 问题 。 

虽然 基于 词组 匹配 的 ROUGE 方法 几乎 成 为 自动 摘要 质量 评估 的 通用 方法 ,但 是 
如 何 设计 更 加 准确 的 评价 指标 始终 是 研究 人 员 关 注 的 焦点 。Kurisnkel et al. (2016) 提 
出 了 融入 上 下 文 独立 性 的 评价 指标 , 旨 在 判断 摘要 句子 的 信息 是 否 完整 ， Peyrard and 
Eckle-Kohler (2017) 希望 将 人 工 评 价 方法 自动 化 ,并 提出 了 人 金字塔 模型 的 自动 评价 方 
法 。Zhu et al. (2018) 设计 了 一 种 基于 多 模 态 的 摘要 质量 评估 算法 。 虽然 评价 方法 的 研 
究 相 对 迟缓 ,但 是 相信 自动 摘要 质量 评估 方法 将 会 随 着 自动 摘要 方法 不 断 得 到 发 展 和 


or 
完善 。 
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多 层 感 知 器 (multi-layer perceptron, MLP) , 68 

多 模 态 摘要 (multimodal summarization) , 264 

多 示例 学 习 (multi-label learning) , 225 

多 文档 摘要 (multi-document summarization) , 227 

多 语言 摘要 (multi-lingual summarization) , 227 

多 语言 摘要 评测 (multi-lingual summarization evaluation, MSE) , 263 


E 
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更 新 式 摘 要 (update summarization) , 264 

共 指 消解 (coreference resolution) , 184 
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观点 挖掘 (opinion mining) , 2 

KKM dink detection, LD) , 153 

关系 抽取 Celationship extraction) , 171, 204 
管道 式 方法 (pipeline method) , 217 


Hobbs 算法 (Hobbs algorithm) , 185 

汉语 自动 分 词 (Chinese word segmentation, CWS) , 15 
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宏 平均 (macro-average), 79 
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互信 息 (mutual information, MI) , 56 
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机 器 翻译 (machine translation) , 253 
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句法 分 析 器 (syntactic parser) , 21 

句法 结构 树 (syntactic structure tree) , 20 

句子 压缩 (sentence compression) , 238 
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KKT 条 件 (KKT (Karush-Kuhn-Tucker) condition) , 66 
K-L 距离 (K-L (Kullback-Leibler ) distance) , 85 

K-L 散 度 (K-L divergence) , 85 

天 -近邻 分 类 器 (K-nearest neighbor classifier) , 61 

天- 均值 聚 类 (K-means clustering) , 87 
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类 别 分 布 (categorical distribution) , 108 
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命名 实体 识别 (named entity recognition) , 173 

模板 填充 (template population) , 172, 217 

模式 分 类 (pattern classification) , 1 
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MAJE (inverse purity) , 203 


欧 氏 距 离 (Euclidean distance) , 84 
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PageRank 算法 (Page Rank algorithm) , 230 

PV-DBOW 模型 (Distributed Bag-of-Words version of Paragraph Vector) , 43 
PV-DM 模型 (Distributed Bag-of-Words version of Paragraph Vector) , 42 
P-R. 曲线 (P-R. (Precision-Recall) curve) , 80 

判别 式 模型 (discriminative model) , 81 

偏差 - 方差 困境 (bias and variance dilemma) , 147 

朴素 贝 叶 斯 (naïve Bayes, NB) , 53 
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期 望 传播 (Expectation Propagation, EP) , 112 
期 望 最 大 化 (expectation maximization, EM) , 107 
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奇异 值 分 解 (singular value decomposition, SVD) , 55 
前 馈 神经 网 络 feed-forward neural network, FNN) , 30 
潜在 狄 利克 雷 分 布 latent Dirichlet allocation, LDA) , 28, 55 
潜在 语义 分 析 (latent semantic analysis, LSA) , 28 
潜在 语义 索引 (latent semantic indexing, LSI) , 55, 102 
切 比 雪夫 距离 (Chebyshev distance) , 84 

情感 分 类 (sentiment classification) , 4, 118 
情感 极 性 转移 (sentiment polarity shift) , 143 

情绪 分 类 (emotion classification) , 119 

情绪 原因 抽取 Cemotion cause extraction) , 148 


Rand 统计 量 (Rand index) , 98 

ROC (receiver operating characteristic) , 81 

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) , 261 
热点 话题 发 现 (hot topic discovery) , 4 

人 工 神经 网 络 (artificial neural network) , 68, 69 


Skip-gram 模型 (skip-gram model) , 35 

Skip-Thought 模型 (Skip-Thought model) , 44 

Softmax 回归 (Softmax regression) , 63 

三 元 语法 (tri-gram) , 27 

Hi Centropy) , 55 

深度 学 习 (deep learning, DL) , 6 

神经 网 络 语言 模型 (neural network language model,NNLM) , 22, 29 
生成 式 模型 (generative model) , 81 
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生物 医学 文本 挖掘 (biomedical/medical text mining) , 4 
识别 错误 权衡 图 (detection error tradeoff plot, DET) , 150 
时 间 轴 摘要 (timeline summarization) , 264 

实体 扩充 (entity expansion) , 225 

实体 链接 (entity linking) , 193, 197 

实体 消 歧 (entity disambiguation) , 171, 193 

事件 抽取 (event extraction) , 171, 215 

事件 属性 (event attribute) , 216 

首次 报道 识别 (first story detection, FSD) , 152 

树 核 (tree kernel) , 210 

数据 驱动 方法 (data driven methods) , 8 

数据 挖掘 (data mining) , 1 

双向 长 短 时 记忆 模型 (bidirectional long-short term memory, Bi-LSTM) , 180 
似 然 率 (likelihood ratio) , 252 


TextRank 算法 (TextRank algorithm) , 231 

特征 工程 (feature engineering) , 26 

特征 频率 - 倒 文档 频率 CTF-ADF) , 25 

特征 权重 (feature weight) , 25 

特征 提取 (feature extraction) , 55 

特征 选择 (feature selection) , 55 

提 及 (mention) , 184 

条 件 灯 (conditional entropy) , 56 

条 件 随机 场 (conditional random field, CRF) , 81, 178 

通用 迭代 缩放 算法 (generalized iterative scaling, GIS) , 189 
通用 型 摘要 (generic summarization) , 228, 251 

统计 距离 (statistical distance) , 85 

突 发 话题 检测 (bursty/breaking topic detection) , 162, 163 
突 发 事件 检测 (bursty/breaking event detection) , 164 
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微 平均 (micro-average) , 79 

维特 比 (Viterbi) 解码 , 166, 177 

维特 比 算法 (Viterbi algorithm) , 177 

文本 表示 (text representation) , 23 

文本 分 类 (text classification) , 2, 3 

文本 分 析 会 议 (Text Analysis Conference, TAC) , 18 
MAR (text clustering) , 2, 3 

文本 情感 分 析 (text sentiment analysis) , 2, 3 

文本 蕴涵 (textual entailment) , 22 

文本 自动 摘要 Cautomatic text summarization) , 2 
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文档 理解 会 议 (Document Understanding Conference, DUC) , 18, 262 
问答 系统 (question and answering, Q&A) , 2 


线性 链条 件 随 机 场 模型 (linear-chain CRF) , 178 

相关 反馈 (relevance feedback) , 159 

向 量 空间 模型 (vector space model, VSM), 23 

消息 理解 会 议 (Message Understanding Conference, MUC, 2 
协同 训练 (Co-training) , 41 

新 事件 检测 (new event detection, NED) , 152 

信道 模型 (channel model) , 239 

信息 抽取 Gnformation extraction, IE) , 2, 171 

信息 增益 (information gain, IG) , 58 

信 源 模型 (source model) , 239 

序列 标注 (sequence labeling), 175 

循环 神经 网 络 (recurrent neural network, RNN) , 31, 71 
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压缩 式 摘要 Ccompression-based summarization) , 228 
沿 结构 反 向 传播 Cback-propagation through structure, BPTS) , 127 
样本 选择 偏差 (sample selection bias) , 147 
依存 关系 分 析 (dependency parsing) , 20 
-元 语法 Cunigram) , 27 
依存 分 析 器 (dependency parser) , 21 
隐 马 尔 可 夫 模 型 (hidden Markov Model, HMM) , 19, 81, 176 
由 字 构 词 的 汉语 分 词 方法 (character-based Chinese word segmentation) , 19 
余弦 相似 度 (cosine simility ) , 84 
语 块 分 析 (chunking) , 19 
语言 模型 (language model, LM) , 21 
语义 角色 标注 (semantic role labeling, SRL) , 22 
语义 倾向 (semantic orientation, SO) , 122 
语义 知识 库 , 27, 131, 213, 214 
预 训练 Cpre-train) , 222 
远程 监督 (distant supervision) , 214 


在 线 更 新 (online update) , 220 

在 线 检测 (online detection) , 156 

噪声 对 比 估计 (noise contrastive estimation, NCE) , 35 
噪声 信道 模型 (noise channel model) , 239 
摘要 内 容 单元 (summary content unit, SCU) , 258 
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召回 率 (recall) , 78, 98 

正则 化 项 (regularization term) , 42 

支持 向 量 机 (support vector machine, SVM) , 53, 65 
知识 库 填 充 (knowledge base population, KBP) , 172 
知识 发 现 (knowledge discovery in database (KDD) ) , 1 
指称 (mention) , 184 

众 包 (crowdsourcing) , 225 

主 成 分 分 析 Cprincipal component analysis, PCA) , 55 
主题 模型 (topic model) , 3 

柱 搜索 (beamSearch) , 220 

自动 文本 摘要 (automatic text summarization) , 227 
自动 文摘 (automatic summarization) , 5 

自然 语言 处 理 (natural language processing, NLP) , 1 
自信 息 (self-information) , 44, 55 

阻尼 因子 (damping factor) , 231 

最 大 边缘 相关 (maximal marginal relevance, MMR) , 237 
最 大 间隔 损失 (max-margin loss, MML) , 200 

最 大 间隔 准则 (maximum margin criterion) , 65 
dX (maximum entropy, ME) , 53 

SAVE (maximum entropy, ME) , 65 

最 大 似 然 估 计 , 30, 241 


